记一次Spark集群查询速度变慢的问题调查

最新推荐文章于 2022-09-01 23:47:36 发布

zhao_rock_2016

最新推荐文章于 2022-09-01 23:47:36 发布

阅读量2.7k

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qaz1qaz1qaz2/article/details/52825447

版权

Spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

现象:针对某张表(下文中用A表代替)的查询速度慢了6s

简单介绍一下系统的架构:Spark + Tachyon + glusterfs+mesos,其中glusterfs负责tachyon数据的持久化，Spark从tachyon上加载数据，mesos负责Spark任务调度

通过对比分析Spark:4040页面提供的任务执行信息发现，A表的Spark任务中，出现了Locality Level为ANY的，这导致后三个任务的起始时间延迟6s，如图.

简单介绍一下Spark的Locality Level

PROCESS_LOCAL: 是指读取缓存在本地节点的数据

NODE_LOCAL: 是指读取本地节点硬盘数据

ANY: 是指读取非本地节点数据

运行速度上由快到慢 PROCESS_LOCAL > NODE_LOCAL > ANY

1.5版本的Spark中引入了两个新的级别NO_PREF RACK_LOCAL

http://spark.apache.org/docs/latest/tuning.html#data-locality

书归正传，以上可以分析出，A表是由于Spark任务中出现了读取非本地节点数据导致的。接下来去Tachyon的web页面中看看能否查出蛛丝马迹，进入到A表的Tachyon文件目录层，

发现有的文件分布在node56上，如下图

原因：由此想起了，在数据导入后我们对mesos集群进行了重新划分，node56只被划分为mesos-master，

这就导致node56上的数据需要被其它的mesos-slave跨节点copy数据，由此产生了Locality Level中的any，

导致查询速度显著变慢

注意: 对集群规模和角色的划分一定要在调整前，考虑到各个方面

查看图片附件

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄16年

88
原创

52
点赞

86
收藏

72
粉丝

关注

私信

热门文章

分类专栏

Trino(PrestoSQL) 付费 9篇
Camunda 5篇
gradle 1篇
Flink 2篇
数据湖 1篇
mybatis 2篇
SpringBoot 8篇
人工智能 6篇
java 4篇
scala
cxf 1篇
quartz
数据库
Mysql 8篇
SQLServer 1篇
项目管理工具 4篇
HBase 3篇
Spark 7篇
Flume 4篇
zookeeper 1篇
Linux及shell 10篇

最新评论

3.6 Trino二次开发-动态数据源管理-打包阶段问题汇总
GougeNo.1: 处理方式： 1. license header 1.1 增加头信息：mvn license:format 1.2 或者取消头信息检查 <plugin> <groupId>com.mycila</groupId> <artifactId>license-maven-plugin</artifactId> <excludes>  <exclude>**</exclude> </excludes> </plugin> 2. 规避checkStyle：在root pom中的properties里添加如下规避 <air.check.fail-checkstyle>false</air.check.fail-checkstyle> <air.check.skip-checkstyle>true</air.check.skip-checkstyle>
3.5 Trino二次开发-动态数据源管理-代码实现
向前挺近的菜鸟: 重新部署好，怎么使用呢没有使用案例？
Camunda错误边界事件与用户任务结合使用
zhao_rock_2016: 你好，把boundary event拖到和task重合的地方，然后点击小扳手就能看到，错误节点。你们Camunda用在什么场景？
Camunda错误边界事件与用户任务结合使用
weixin_37304932: 大佬，你的流程图错误节点怎么设置的呀。
3.5 Trino二次开发-动态数据源管理-代码实现
Achillesssss: 这段代码什么作用。。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zhao_rock_2016 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。