ElasticSearch 实战：(底层原理) ES写入索引数据的过程以及优化写入过程

用心去追梦

于 2024-03-29 10:07:58 发布

阅读量381

点赞数 5

文章标签： elasticsearch 大数据搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33240556/article/details/137136226

版权

Elasticsearch在写入索引数据的过程中，涉及以下几个关键步骤以及相应的优化措施：

写入过程（底层原理概述）：

路由与分发：
- 当数据被写入时，Elasticsearch会根据文档ID和预先定义好的索引分片规则进行路由，确定数据应该写入哪个具体的主分片。
内存Buffer：
- 数据首先进入内存缓冲区，这里的缓冲区指的是Lucene内部的一个索引缓冲区，暂存待索引的文档。
事务日志（Translog）：
- 同时，所有的写操作也会被记录到translog（事务日志）中，用于在Elasticsearch重启或发生故障时恢复未持久化到磁盘的数据。
自动刷新（Auto-Refresh）：
- 默认情况下，Elasticsearch每隔一定时间（refresh_interval）会自动刷新缓冲区中的数据，将其转换为一个新的不可变的Lucene索引段，然后把这部分数据刷到文件系统缓存中，使其可被搜索到。这意味着Elasticsearch提供了近实时搜索的能力。
段提交（Flush）：
- 随着缓冲区越来越大或满足其他条件（如translog大小超过阈值），Elasticsearch会触发一个flush操作，将内存中的索引段持久化到磁盘，并清除translog的旧日志，新建一个translog文件。
副本同步：
- 主分片将新产生的索引段同步到关联的副本分片上，副本分片同样执行上述过程，保持与主分片数据的一致性。

优化写入过程：

批量写入（Bulk API）：
使用Bulk API可以显著提高写入效率，它允许用户一次性发送多个索引、删除或更新请求，减少了网络传输开销和上下文切换成本。
调整refresh_interval：
如果不需要近乎实时的搜索能力，可以适当增加refresh_interval，减少不必要的刷新操作，从而提升写入性能。
禁用自动刷新：
在大批量导入数据的场景下，可以临时关闭自动刷新功能，待数据导入完成后重新开启。
合理设置索引设置：
包括但不限于内存缓冲区大小、translog刷新策略等，可以根据实际硬件资源和业务需求进行调整。
优化文档结构：
减少冗余字段和不必要的分析过程，可以加速索引构建速度。
使用管道流（Pipeline）预处理数据：
如果数据需要复杂处理才能入库，可以利用Ingest Node的Pipeline功能进行预处理，减轻索引阶段的压力。
监控与负载均衡：
监控集群状态，避免单个节点过载，适时调整分片分布，确保集群负载均衡。

总之，针对Elasticsearch的写入性能优化，关键是结合具体应用场景，通过合理配置、API优化、硬件资源优化等多种手段，实现高效、稳定的数据写入。

用心去追梦

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch 实战：(底层原理) ES写入索引数据的过程以及优化写入过程

路由与分发当数据被写入时，Elasticsearch会根据文档ID和预先定义好的索引分片规则进行路由，确定数据应该写入哪个具体的主分片。内存Buffer数据首先进入内存缓冲区，这里的缓冲区指的是Lucene内部的一个索引缓冲区，暂存待索引的文档。事务日志（Translog）同时，所有的写操作也会被记录到translog（事务日志）中，用于在Elasticsearch重启或发生故障时恢复未持久化到磁盘的数据。自动刷新（Auto-Refresh）默认情况下，Elasticsearch每隔一定时间（
复制链接

扫一扫

用心去追梦 CSDN认证博客专家

CSDN认证企业博客

3481: 原创

5562: 周排名

186: 总排名

172万+: 访问

: 等级

5万+: 积分

1万+: 粉丝

1万+: 获赞

126: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

java.lang.NumberFormatException-For input string-“”
阿J~: 太精辟了！竖起我的大拇指！
java: 程序包lombok不存在
阿J~: 太精辟了！竖起我的大拇指！
java 实现链接生成二维码
weixin_53371082: 生成的二维码有期限或者使用限制吗？
okhttp3.RequestBody.create(Ljava/lang/String；Lokhttp3/MediaType；)Lokhttp3/RequestBody； at com.alibab
小王毕业啦: 博主的这篇文章真是太有价值了！通过对"okhttp3.RequestBody.create(Ljava/lang/String；Lokhttp3/MediaType；)Lokhttp3/RequestBody； at com.alibab-CSDN博客"这个主题的深入分析，我对这个技术有了全新的认识。文章中的细节描写非常到位，让我感受到了博主的深厚功底和专业知识。期待着博主未来能够持续分享更多类似的好文，同时也希望能够得到博主的指导，共同进步。再次感谢博主的无私分享和支持！
Ribbon和Feign的区别？
sinat_41703851: Ribbon通常与Spring Cloud中的其他组件（如Eureka、Hystrix等）一起使用，以实现服务的自动发现和负载均衡。 Ribbon是一个独立的开源项目，可以与其他Java框架一起使用，如Spring Boot和Spring MVC。这两者是不是有点矛盾

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。