一.Elasticsearch segment (基于luence来详解)

本文基于Lucene探讨Elasticsearch的Segment概念,解释倒排索引原理及如何减少磁盘I/O提高索引效率。通过内存中的RAMDirectory实现准实时搜索,以及如何在内存与磁盘间管理Segment,确保数据安全性。
摘要由CSDN通过智能技术生成

相信很多接触es的同志,在了解到segments的时候只是模糊的知道这是索引文件,也知道refrash和flush,确再说点什么就不知道了,今天我就基于luence来浅谈一下这个到底是个什么东西。

  首先搜索引擎,是基于倒排索引来提供搜索功能的,要做到这一点首先就是对输入数据进行分词 提起,建立词项词频,然后将这些信息存储起来,当你搜索的时候给你提供搜索结果。

  1:浅谈倒排索引

   加入你想要从大量的文件中搜索出来包好某个短语的文件你会怎么做呢?最初级的想法就是,顺序的遍历整个目录下的文件,然后读取出来进行匹配,然后返回包含搜索结果的文件名,这是最初级的想法,相信你读到这里也会点头的。不过这个方法有很多的缺陷,想象一下如果数据量巨大的话,你这个方法会慢成什么样,不仅要便利目录还要逐个读取匹配 ,额想想就蛋疼。而这个就是索引技术解决的问题。  举个例子来说,索引就像你为一本书建立了一个目录,然后把文本转换成你能快速搜索到的格式,这个转换过程就叫做倒排索引技术。  你可以把倒排索引想像成一种数据结构,这种结构允许你对其中的数据进行快速检索。  索引就是这么一个精心设计的倒排索引结构,存储在文件系统中,允许你搜索,要比你顺序便利匹配快的多的多啊。就像你用字典查询一个汉字,是一页一页快还是通过目录的拼音结

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我先森

鼓励一个吧,哈哈

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值