spark两个节点2.2GB数据的orderby算子测试（上）

最新推荐文章于 2024-02-28 01:53:13 发布

置顶 jamsonzan

最新推荐文章于 2024-02-28 01:53:13 发布

阅读量947

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39216439/article/details/80214324

版权

我们的任务就是分析orderby算子的流程，并用数据验证，最终总结优化方法。

spark的orderby算法，有点像桶排序，有三个阶段：

1. 抽样确定bound（水塘抽样算法，随机从n个元素中选择k个，但抽样过程中无法知道n）

2. 根据bound进行shuffle write

3. shuffle read 并在内存中排序

2.2GB数据集共5百万条记录保存在master1上，两台物理机主机名为master1和slave5，都是4核心，4GB内存，但是每台机器只给work分配1GB内存（spark实际用于计算的默认内存因子为0.6，实际上内存是动态管理的），要不2GB数据集就显得太小了，

我们先分析spark的ui记录，再根据ganglia的数据做进一步的分析。

jobs如下：有3个job共运行大约15分钟（当时还不懂得截图，将就一下吧(●ˇ∀ˇ●)）

job0由master1读取了一个128m的数据，初始化获取元信息，类型推断

job1是全表扫描并进行抽样的过程，tasks如下：

因为数据存储在master1上，网络io严重拖慢了速度，负载极不均衡。

job2有两个stage：

stage1根据抽样结果将数据写到bound间（shuffle write），每台主机的tasks为由job1获得的数据，所以master1和job1一样，14个tasks，而slave为4个tasks，也就是说这个stage主机间不交换数据。18个task运行完大约2min，是master1运行完14个task的时间，由于job1的分配不均衡导致slave5的cpu资源浪费

stage2是shuffle read过程，抽样了200个bound，所以共200个分区，任务分配较均衡，指标总览图已经能很好说明问题，如下：

这个stage主机间是会交换数据的，可以简单看出slave5处理完本地的512M在从master1上获取（实际上是会根据分区从本地和maters上同时获取分区数据的），所以共1024MB，和实际数据919.8MB还是挺吻合的

接下来分析ganglia的报告，做一个简单的分析，主要的图：

master1：

slave5：

spark应用提交时间在10：05，可能因为实验环境不纯净，存在一些数据无法解释，就简单分析一下。

先分析slave5：

slave5先在master1读取大约512M数据，可以看到网络io大约4MB/s 第一个io高峰大约150s，cpu也比较平稳

io和cpu处理是异步的

接下来是shuffle write：时间在10：08到10：11

疑惑点：根据前面的分析，这个阶段是不会交换数据的，否则slave5就不会只花了20几秒运行4个tasks，无法解释这一时段的网络io

然后再看看master1：

运行的东西多，内存比较紧，有些数据被调到了swap上，系统缓存只剩下默认大小了

还有下篇~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark两个节点2.2GB数据的orderby算子测试（上）

我们的任务就是分析orderby算子的流程，并用数据验证，最终总结优化方法。spark的orderby算法，有点像桶排序，有三个阶段：1. 抽样确定bound（水塘抽样算法，随机从n个元素中选择k个，但抽样过程中无法知道n）2. 根据bound进行shuffle write3. shuffle read 并在内存中排序2.2GB数据集共5百万条记录保存在master...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。