全文检索基础

一、全文检索基础

1、信息源 --> 分词器 --> 建立索引库

2、文本在建立索引和搜索的时候,都会先进行分词

3、索引库的结构

  索引表:存放具体词汇,哪些词汇在哪些文档里面存储。索引表里面存储的就是分词器分词之后的结果

  数据源:文本信息集合

4、用户搜索时,首先经过分词器进行分词,然后去索引表里面查找对应的词汇( 利用倒排序索引算法 ),再找到对应的文档集合

5、信息集合里每一条数据都是一个 document ( 存储所有信息,他是一个 Field 属性的集合 )

6、sorre 是否进行存储

7、index 是否进行索引

二、存储数据到索引库

   将数据源存储到索引库之前,会先进行分词器分词,然后将数据存储到索引库。索引库包含了两个部分,一个数全量数据块,用来存储数据源。一个是索引表,用来存储分词器分词之后的词语

三、用户搜索

  首先经过分词器进行分词,然后去索引表里面查找对应的词汇( 利用倒排序索引算法 ),再找到对应的文档集合,将文档集合返回给用户

 

转载于:https://www.cnblogs.com/fangwu/p/8654903.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值