ElasticSearch内核原理

最新推荐文章于 2024-01-25 16:24:38 发布

drama_CJL

最新推荐文章于 2024-01-25 16:24:38 发布

阅读量157

点赞数

分类专栏： ElasticSearch 文章标签： ElasticeSearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/drama_CJL/article/details/102675180

版权

ElasticSearch 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 倒排索引组成结构以及其索引不可变原因

1.1 倒排索引的结构

包含这个关键词的document list
包含这个关键词的所有document的数量：【IDF】
这个关键词在每个document中出现的次数：【TF】
这个关键词在这个document中的次序
每个document的长度：【length norm】
包含这个关键词的所有document的平均长度

1.2 倒排索引不可变的好处

不需要锁，提升并发能力，避免锁问题
数据不变，一致保存在os cache中
filter cache一直留在内存
可以压缩，节省cpu和io开销
坏处：每次都要重新构建整个索引

2. Document写入原理

关键词
- buffer
- commit
- segment
- os cache
- os disk

2.1 写入过程

数据写入buffer
commit point
buffer中的数据写入新的index segment
等待在os cache中的index segment被fsync强制刷到磁盘os disk上
新的index segment被打开，供search使用
buffer被清空

2.2 删除过程

每次commit时会生成del文件
表明哪个index segment中的哪个document被删除了
假设 del中，doc id=1被删除了
搜索请求过来，在index segment中，匹配到了id=1的doc，此时会发现在del文件中已经被标识为deleted了，这种数据就会被过滤掉

2.3更新过程

将现有的doc标记为deleted
然后将新的document写入新的index segment中
下次search过来时，将匹配到一个document的多个版本
但之前的版本已经标记为deleted了
最终只返回最新版本的doc

3. 优化写入流程实现NRT

关键词
- filesystem
- cache
- refresh
问题：每次等待fsync 写到磁盘才可以写入，中间等待写磁盘很慢，所以以上写入流程有问题

3.1 改进版-写入流程

数据写入buffer中
每隔一段时间（1s），将buffer写入新的index segment
1. 每秒都会产生新的index segment
index segment立即被刷到os cache中
立刻就可以被打开搜索

数据写入os cache，并被打开供搜索的过程，叫做refresh
手动refresh post /my_index/_refresh
如果时效性比较低，只要求一条数据写入es，一分钟后才被搜索可以调整

#PUT /index
{
    "settings":{
        "refresh_interval":"30s"
    }
}

4. 写入流程实现durability可靠存储

关键词
- translog
- flush
问题：以上优化版本仅仅将数据写到了os cache中，如果机器宕机将使es变得不可靠

4.1 改进版-写入流程

document将数据写入buffer中，同时将document写入translog日志文件中
每秒写入一个新的index segment file中
立即将index segment file 写入 os cache，并打开供搜索
将buffer清空
此时，os cache、translog会不断累积变大
当累积到一定程度，触发commit
将会写一个commit point文件到磁盘上，标明有哪些index segment
然后将os cache刷到os disk中去
清空os cache、translog日志文件

fsync+清空translog，就是flush，默认每隔30分钟flush一次，或者当translog过大时也会flush

4.2 基于translog和commit point进行数据恢复

os disk中存放了上一次 commit point位置，所有segment file都fsync到磁盘中
机器被重启，disk总数居没有丢失
此时会见translog文件中的变更记录进行回访，重新执行之前的各种操作，在buffer中执行
重新写入一个个的segment
等待下一次commit即可

4.2.1 translog的存储方式

translog每个5秒被fsync一次到磁盘上
再一次增删改操作之后，当fsync在primary shard和replica shard都成功之后，那次增删改才会成功
这种一次增删改强行fsync translog可能会导致部分操作比较耗时
如果可以容忍5秒数据丢失即可设置：
可以通过设置异步fsync translog

PUT /index/_settings
{
    "index.translog.durability":"async",
    "index.translog.sync_interval":"5s"
}

5.最后优化写入流程实现海量磁盘文件合并

关键词
- segment merge
- optimize

5.1 合并过程

选择大小相似的segment进行合并成一个大的
将合并的segment flush到磁盘上去
写入新的commit point，包括了新的segment，并且排除旧的那些segment
将新的segment打开供搜索
将旧的segment进行物理删除

手动执行合并 POST /index/_optimize?max_num_segments=1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch内核原理

1. 倒排索引组成结构以及其索引不可变原因1.1 倒排索引的结构包含这个关键词的document list包含这个关键词的所有document的数量：【IDF】这个关键词在每个document中出现的次数：【TF】这个关键词在这个document中的次序每个document的长度：【length norm】包含这个关键词的所有document的平均长度1.2 倒排索引不可...
复制链接

扫一扫

专栏目录

drama_CJL CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

28万+: 周排名

96万+: 总排名

3941: 访问

: 等级

111: 积分

3: 粉丝

4: 获赞

2: 评论

2: 收藏

私信

关注

热门文章

分类专栏

最新评论

灵感PPT,一键制作PPT解决创作难题工具体验,
CSDN-Ada助手: 恭喜您写出了这篇有关“灵感PPT”的博客，这是一个非常实用的工具，能够帮助许多人解决创作难题。同时，我也想提供一些建议，以便您继续创作更多有趣的内容。您可以尝试通过研究用户的反馈，对工具进行改进和优化，以便更好地满足用户的需求。同时，您也可以分享更多关于PPT制作的技巧和经验，让更多人受益。感谢您的分享，期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
SpringSecurity基于OAuth2协议实现第三方登录源码剖析
wangwenwen97: 666

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。