spark 向elasticsearch 优化写入数据

hi蜗牛慢跑

于 2018-07-14 20:11:08 发布

阅读量9k

点赞数 6

分类专栏： Spark 文章标签： spark elasticsearch es

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lidaxueh_heart/article/details/81046513

版权

一、前言

近期有个项目用spark向es(版本5.x)写入数据，该项目是离线任务，每天创建一个index存数据，随着数据量的增大(2亿+，峰值有5亿+)。性能出现问题：写入时间过长，es响应不过来等

二、调整策列

1.由于该项目是离线任务，并不是需要实时查询，可以将es中的near real-time search属性设置较高的阈值30s或者-1 。默认情况下写入到es的数据并不是马上就刷到磁盘，先放在 in-memory buffer，但客户端是读取不到in-memory buffer中的数据，为了实时查询，需要定期（默认1s）将该数据刷写到介于es和磁盘之间的filesystem cache 即refresh，该操作轻量级的。写入到filesystem cache相当于创建新的segment 是可以被客户端读取到的，默认属性(阈值是1s)由于快速的刷数据导致很多小量的filesystem cache，同时写入到filesystem cache仍然有一些性能消耗，所以根据应用的使用场景，如果是关注写入速度并不关注实时查询，可以适当调整默认的阈值的，该属性是在创建索引（属性值为：index.refresh_interval）的时候设置的。关于near real-time search 原理见官网链接：Near Real-Time Search

2.index.translog.durability 默认值是request，该属性类似于hba

最低0.47元/天解锁文章

博客等级

码龄11年

16
原创

16
点赞

48
收藏

3
粉丝

关注

私信

热门文章

分类专栏

storm 1篇
PersonalLift
JAVA基础 2篇
Spark 1篇
hive
分布式 2篇
hbase 2篇
hadoop 2篇
算法 2篇
kylin 1篇
kafka 1篇

最新评论

spark 向elasticsearch 优化写入数据
maketubu7: 请问pyspark写入大数据集到es有相关经验吗师兄
spark 向elasticsearch 优化写入数据
hi蜗牛慢跑回复子秦1117: 我说错的，我的是saveToEs，这个方式不是有多个重载方法吗？调用接受参数是 Rdd 和Map[String,String]的方法啊
spark 向elasticsearch 优化写入数据
子秦1117 回复 hi蜗牛慢跑: 也许是版本问题吧，elasticsearch-hadoop6.4中EsSpark只有saveToEs方法了，不过参数是一样的
spark 向elasticsearch 优化写入数据
hi蜗牛慢跑回复子秦1117: 我最后保存所用的方法是：EsSpark.saveAsEs（rdd:Rdd,conf:Map[String,String]），直接在conf 中配置的，跟es client的配置方法是一样的。可以自行google下

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。