记录两次sparkjob优化,性能提升几十倍不止

34 篇文章 0 订阅

目前在做两个项目,一个搜索平台化一个排序服务化,在项目开发中两者都用到了spark开发数据处理,遇到问题多多,但解决后性能提升几十倍不止,下面记录下两次优化。

一、在特征处理中,需要读取hive的数据进行业务逻辑处理写入到kv系统中,为了减少shuffle,每次处理直接用mapPartitons以及foreachPartitons进行处理,整体都速度不错,但是就是有那么几个特征hive表处理就是非常慢,提高内存,修改参数还是非常慢,通过调试发现此hive表没有进行压缩,他的partition只有两个,导致处理的时候每个executor需要循环处理几百万数据导致非常缓慢,知道问题解决的方法就很简单了,在读取完数据后,进行一次repartition,将数据进行预切分,这样再来处理的时候每个executor都能充分发挥自己的性能,不用大部分空闲了,更改后分分钟处理完成。

二、在对特征进行处理的时候,我们为了做特征本地化需要根据某条特征所在的城市切分shard,并且很多其他信息要从多个hive表读取,一期为了做到通用化将多来源数据构造了DataFrame,注册成内存表然后通过循环执行SparkSql将结果写入到HDFS目录中,此方案可行灵活性不错,但是在shard非常多的情况下,执行时间甚至超过一个多小时,完全不能忍……

      后面调研各种信息及源码后,做了代码上的修改,将构造的DataFrame中的row构造成Pair<shardNum,row>,并重写

RDDMultipleTextOutputFormat,将结果根据key信息直接写入到多个文件中,而不再需要进行循环执行SparkSql,性能直接提升十几倍以上。

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值