记录两次sparkjob优化，性能提升几十倍不止

最新推荐文章于 2023-08-06 15:06:52 发布

a925907195

最新推荐文章于 2023-08-06 15:06:52 发布

阅读量1.8k

点赞数 1

分类专栏： java hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a925907195/article/details/82387697

版权

java 同时被 2 个专栏收录

144 篇文章 0 订阅

订阅专栏

34 篇文章 0 订阅

订阅专栏

目前在做两个项目，一个搜索平台化一个排序服务化，在项目开发中两者都用到了spark开发数据处理，遇到问题多多，但解决后性能提升几十倍不止，下面记录下两次优化。

一、在特征处理中，需要读取hive的数据进行业务逻辑处理写入到kv系统中，为了减少shuffle，每次处理直接用mapPartitons以及foreachPartitons进行处理，整体都速度不错，但是就是有那么几个特征hive表处理就是非常慢，提高内存，修改参数还是非常慢，通过调试发现此hive表没有进行压缩，他的partition只有两个，导致处理的时候每个executor需要循环处理几百万数据导致非常缓慢，知道问题解决的方法就很简单了，在读取完数据后，进行一次repartition，将数据进行预切分，这样再来处理的时候每个executor都能充分发挥自己的性能，不用大部分空闲了，更改后分分钟处理完成。

二、在对特征进行处理的时候，我们为了做特征本地化需要根据某条特征所在的城市切分shard，并且很多其他信息要从多个hive表读取，一期为了做到通用化将多来源数据构造了DataFrame，注册成内存表然后通过循环执行SparkSql将结果写入到HDFS目录中，此方案可行灵活性不错，但是在shard非常多的情况下，执行时间甚至超过一个多小时，完全不能忍……

后面调研各种信息及源码后，做了代码上的修改，将构造的DataFrame中的row构造成Pair<shardNum,row>,并重写

RDDMultipleTextOutputFormat，将结果根据key信息直接写入到多个文件中，而不再需要进行循环执行SparkSql，性能直接提升十几倍以上。

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
记录两次sparkjob优化，性能提升几十倍不止

目前在做两个项目，一个搜索平台化一个排序服务化，在项目开发中两者都用到了spark开发数据处理，遇到问题多多，但解决后性能提升几十倍不止，下面记录下两次优化。一、在特征处理中，需要读取hive的数据进行业务逻辑处理写入到kv系统中，为了减少shuffle，每次处理直接用mapPartitons以及foreachPartitons进行处理，整体都速度不错，但是就是有那么几个特征hive表处理就是...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。