Spark集群数据处理速度慢（数据本地化问题）

最新推荐文章于 2022-03-03 15:56:52 发布

weixin_33729196

最新推荐文章于 2022-03-03 15:56:52 发布

阅读量653

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/zhangtianyuan/p/8311655.html

版权

SparkStreaming拉取Kafka中数据，处理后入库。整个流程速度很慢，除去代码中可优化的部分，也在spark集群中找原因。

发现：

集群在处理数据时存在移动数据与移动计算的区别，也有些其他叫法，如：数据本地化、计算本地化、任务本地化等。

自己简单理解：

假设集群有6个节点，来了一批数据共12条，数据被均匀的分布在了每个节点，也就是每个节点2条。现在要开始处理这些数据。

　　一种情况是：某数据由哪个节点处理被随机的分配，类似A节点存了数据1和数据2却可能被要求处理C节点的数据5和数据6，C节点的数据5和数据6就被备份到A节点，而A节点的数据又要备份到其他某一节点用于被处理。集群节点间存在大量数据移动，影响了速度。

　　另一种情况：某节点自身储存的数据就由自身来处理，比如A节点存储了数据1和数据2，那么数据1和数据2就由A节点来计算，C节点存储了数据5和数据6，那么数据5和数据6就由C节点来计算。这也就避免了数据的移动。

当然实际要比我描述的复杂得多，我的理解肯定也有不对的地方。

浏览器打开spark 8080端口master界面，图中红色箭头处如果显示各机器IP地址那就很有可能会造成移动数据的问题。

解决：

先停止spark集群，在master机器用 start-master.sh 启动，然后分别在每一台worker机器用 start-slave.sh -h 本机hostname spark://master机器hostname:7077 启动。

过程中可能遇到很多问题，多注意每台机器上的几个文件中的内容是否有问题：/etc/hosts, spark中conf文件夹中spark-env.sh和slaves

转载于:https://www.cnblogs.com/zhangtianyuan/p/8311655.html

weixin_33729196

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark集群数据处理速度慢（数据本地化问题）

SparkStreaming拉取Kafka中数据，处理后入库。整个流程速度很慢，除去代码中可优化的部分，也在spark集群中找原因。发现：集群在处理数据时存在移动数据与移动计算的区别，也有些其他叫法，如：数据本地化、计算本地化、任务本地化等。自己简单理解：假设集群有6个节点，来了一批数据共12条，数据被均匀的分布在了每个节点，也就是每个节点2条。现在要开始处理这些数据。　...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。