es查询入hive的优化(速度提升3倍＋)

最新推荐文章于 2023-08-30 18:02:45 发布

功夫猫熊yeah

最新推荐文章于 2023-08-30 18:02:45 发布

阅读量2.2k

点赞数

本文链接：https://blog.csdn.net/weixin_39031707/article/details/90757186

版权

优化之前
，es查询圈人，入hive 可能需要2h+的时间，如下为读了800M数据的时间，已经40min了，读完估计2h+
在这里插入图片描述
优化以后：

这里设置了scoll.size为1000，插入完成只要40分钟，主要的瓶颈在写入hive这块，速度提高了3倍还要多1.只查询需要入库的字段，减少网络io，如下es.read.field.include设置以后，返回的字段都没了，所以网络io减少了、、

val rdd: RDD[(String, collection.Map[String, AnyRef])] = ss.sparkContext.esRDD("t_dmp_idfa_bundle_country_array_tbl_1", query, Map("es.read.field.include" -> "null"))

2.设置es参数，设置每次查询返回的条数，默认是50跳，设置成10000条以后，速度明显加快了

conf.set("es.batch.size.bytes", "50mb")conf.set("es.batch.size.entries", "10000")
conf.set("es.scroll.size", "10000")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

功夫猫熊yeah

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
es查询入hive的优化(速度提升3倍＋)

优化之前，es查询圈人，入hive 可能需要2h+的时间，如下为读了800M数据的时间，已经40min了，读完估计2h+优化以后：这里设置了scoll.size为1000，插入完成只要40分钟，主要的瓶颈在写入hive这块，速度提高了3倍还要多1.只查询需要入库的字段，减少网络io，如下es.read.field.include设置以后，返回的字段都没了，所以网络io减少了、、val ...
复制链接

扫一扫