Lucene 原理分析之-全文检索的一般过程-笔记

  • 描述了全文检索的一般过程

01b5bee25c1c47c319d8219bb8397aea51f.jpg

全文检索大体分两个过程,索引创建 (Indexing) 搜索索引 (Search) 。

  • 索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。
  • 搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。

于是全文检索就存在三个重要问题:

  • 1. 索引里面究竟存些什么?(Index)
  • 2. 如何创建索引?(Indexing)
  • 3. 如何对索引进行搜索?(Search)

索引里面究竟存些什么

  • 由于从字符串文件映射是文件到字符串映射的反向过程,于是保存这种信息的索引称为反向索引 

221fd616771e68db6e3d37aa7593509be0c.jpg

  • 左边保存的是一系列字符串,称为词典 。
  • 每个字符串都指向包含此字符串的文档(Document)链表,此文档链表称为倒排表 (Posting List)。

查询既包含字符串“lucene”又包含字符串“solr”的文档,我们只需要以下几步:

  • 1. 取出包含字符串“lucene”的文档链表。
  • 2. 取出包含字符串“solr”的文档链表。
  • 3. 通过合并链表,找出既包含“lucene”又包含“solr”的文件。

d2f4d78e9ec19a081a38d90ca2976e068fd.jpg

  • 全文搜索相对于顺序扫描的优势之一:一次索引,多次使用

如何创建索引

第一步:一些要索引的原文档(Document)。

第二步:将原文档传给分词器(Tokenizer)。

  • 中文分词器: IK Analyzer
    • 1. 将文档分成一个一个单独的单词。

      2. 去除标点符号。

      3. 去除停词(Stop word) 。

第三步:将得到的词元(Token)传给语言处理组件(Linguistic Processor)。

  • 1. 变为小写(Lowercase) 。
  • 2. 将单词缩减为词根形式,如“cars ”到“car ”等。这种操作称为:stemming 。
  • 3. 将单词转变为词根形式,如“drove ”到“drive ”等。这种操作称为:lemmatization 。

第四步:将得到的词(Term)传给索引组件(Indexer)。

  • 1. 利用得到的词(Term)创建一个字典。
  • 2. 对字典按字母顺序进行排序。
    • 2676ee4d10d5ff809b1fa53087d1ecfd6d4.jpg
  • 3. 合并相同的词(Term) 成为文档倒排(Posting List) 链表。
    • 56fcf44cc50693a9e35bee365de9e0f548a.jpg
    • Document Frequency 即文档频次,表示总共有多少文件包含此词(Term)。
    • Frequency 即词频率,表示此文件中包含了几个此词(Term)。

如何对索引进行搜索?

  • 搜索主要分为以下几步:
    • 第一步:用户输入查询语句。

      • 举个例子,用户输入语句:lucene AND learned NOT hadoop。
    • 第二步:对查询语句进行词法分析,语法分析,及语言处理。

      • 1. 词法分析主要用来识别单词和关键字。
      • 2. 语法分析主要是根据查询语句的语法规则来形成一棵语法树。
        • 如上述例子,lucene AND learned NOT hadoop形成的语法树如下:
          • 2e90c3508f0e42d3cb40678289956783b59.jpg
      • 3. 语言处理同索引过程中的语言处理几乎相同。

        • 如learned变成learn等。

    • 第三步:搜索索引,得到符合语法树的文档。

      • 首先,在反向索引表中,分别找出包含lucene,learn,hadoop的文档链表。
      • 其次,对包含lucene,learn的链表进行合并操作,得到既包含lucene又包含learn的文档链表。
      • 然后,将此链表与hadoop的文档链表进行差操作,
        • 去除包含hadoop的文档,
        • 从而得到既包含lucene又包含learn而且不包含hadoop的文档链表
      • 此文档链表就是我们要找的文档。
    • 第四步:根据得到的文档和查询语句的相关性,对结果进行排序。

      • 首先,一个文档有很多词(Term)组成 
      • 找出词(Term) 对文档的重要性:计算词的权重(Term weight) 
        • 词(Term)在文档中出现的次数越多,说明此词(Term)对该文档越重要
        • 越多的文档包含此词(Term), 说明此词(Term),重要性越低
          • ce1a1f508d2a54d0f616366f839bb4b721f.jpg
      • 判断Term之间的关系从而得到文档相关性的过程,也即向量空间模型的算法(VSM)
        • 我们把所有此文档中词(term)的权重(term weight) 看作一个向量。

          • Document = {term1, term2, …… ,term N}

            Document Vector = {weight1, weight2, …… ,weight N}

        • 查询语句看作一个简单的文档,也用向量来表示

          • Query = {term1, term 2, …… , term N}

            Query Vector = {weight1, weight2, …… , weight N}

        • caceace2f489ecd51e1931c55cf19b59018.jpg

        • 05dbb5cdc09a0ba9cff8e7d43d33a5aa74a.jpg​​​​​​​

转载于:https://my.oschina.net/u/3847203/blog/2993059

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值