es查询入hive的优化(速度提升3倍+)

优化之前
,es查询圈人,入hive 可能需要2h+的时间,如下为读了800M数据的时间,已经40min了,读完估计2h+
在这里插入图片描述
优化以后:
在这里插入图片描述
这里设置了scoll.size为1000,插入完成只要40分钟,主要的瓶颈在写入hive这块,速度提高了3倍还要多1.只查询需要入库的字段,减少网络io,如下es.read.field.include设置以后,返回的字段都没了,所以网络io减少了、、

val rdd: RDD[(String, collection.Map[String, AnyRef])] = ss.sparkContext.esRDD("t_dmp_idfa_bundle_country_array_tbl_1", query, Map("es.read.field.include" -> "null"))

2.设置es参数,设置每次查询返回的条数,默认是50跳,设置成10000条以后,速度明显加快了

conf.set("es.batch.size.bytes", "50mb")conf.set("es.batch.size.entries", "10000")
conf.set("es.scroll.size", "10000")
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值