拆解Clucene 系列(2)——Clucene的几个专业术语

最新推荐文章于 2024-03-28 13:00:33 发布

聪明的狐狸

最新推荐文章于 2024-03-28 13:00:33 发布

阅读量1.3k

点赞数 2

分类专栏：搜索文章标签： lucene 索引

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smartfox80/article/details/52182689

版权

搜索专栏收录该内容

17 篇文章 3 订阅

订阅专栏

analyzer
Analyzer是分析器，它的作用是把一个字符串按某种规则划分成一个个词语，并去除其中的无效词语，这里说的无效词语是指英文中的“of”、 “the”，中文中的“的”、“地”等词语，这些词语在文章中大量出现，但是本身不包含什么关键信息，去掉有利于缩小索引文件、提高效率、提高命中率。
分词的规则千变万化，但目的只有一个：按语义划分。这点在英文中比较容易实现，因为英文本身就是以单词为单位的，已经用空格分开；而中文则必须以某种方法将连成一片的句子划分成一个个词语。常用的分析器有mmseg,IKAnalyzer,Lucene 也自带了简单的二元分析器，比如把”北京天安门”划分成”北京”,”京天”、”天安、”安门”
document
用户提供的源是一条条记录，它们可以是文本文件、字符串或者数据库表的一条记录等等。一条记录经过索引之后，就是以一个Document的形式存储在索引文件中的。用户进行搜索，也是以Document列表的形式返回。
field
一个Document可以包含多个信息域，例如一篇文章可以包含“标题”、“正文”、“最后修改时间”等信息域，这些信息域就是通过Field在Document中存储的。
Field有两个属性可选：存储和索引。通过存储属性你可以控制是否对这个Field进行存储；通过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话，事实上对这两个属性的正确组合很重要，下面举例说明：
还是以刚才的文章为例子，我们需要对标题和正文进行全文搜索，所以我们要把索引属性设置为真，同时我们希望能直接从搜索结果中提取文章标题，所以我们把标题域的存储属性设置为真，但是由于正文域太大了，我们为了缩小索引文件大小，将正文域的存储属性设置为假，当需要时再直接读取文件；我们只是希望能从搜索结果中提取最后修改时间，不需要对它进行搜索，所以我们把最后修改时间域的存储属性设置为真，索引属性设置为假。上面的三个域涵盖了两个属性的三种组合，还有一种全为假的没有用到，事实上Field不允许你那么设置，因为既不存储又不索引的域是没有意义的。
term
term是搜索的最小单位，它表示文档的一个词语，term由两部分组成：它表示的词语和这个词语所在的field。
Token
Token是term的一次出现，它包含term文本和相应的起止偏移，以及一个类型字符串。一句话中可以出现多次相同的词语，它们都用同一个term表示，但是是不同的Token，每个Token标记该词语出现的地方。
segment
添加索引时并不是每个document都马上添加到同一个索引文件，它们首先被写入到不同的小文件，然后再合并成一个大索引文件，这里每个小文件都是一个segment。
Posting Table
一般情况下，将一个词条所索引的文档（一般用文档编号表示）称之为 Posting，那么一个词条索引的多个文档就称之为 Posting-list。
多个Posting-list构成一个Postingtable

**总的来说，一篇文章可以看成就是一个document,含有多个field和相应的内容content,field可以理解成标题,正文，作者等信息域，我们可以控制那些field可以索引，那些可以存储。当然索引是肯定需要分词的。不同的分词规则需要不同analyzer，一篇文章经过加工处理后，lucene会为每个doc分配一个名字，在构建索引时，每个document就是一个segment,随着构建索引的document 的增加，多个segment就会合并成一个新的segment里。
可以认为倒排索引是一个map<term,list<Token>>,key是term,value是一系列term出现的位置。**

聪明的狐狸

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
拆解Clucene 系列(2)——Clucene的几个专业术语

lucene用到一些概念和术语
复制链接

扫一扫

专栏目录

聪明的狐狸

博客等级

码龄17年

108
原创

96
点赞

309
收藏

66
粉丝

关注

私信

热门文章

分类专栏

qt实战小项目 2篇
综合 22篇
基础知识 37篇
面试大观 1篇
Python 19篇
UML 2篇
系统知识 20篇
Shell脚本 6篇
调试技巧 4篇
基础理论 14篇
数据库 2篇
杂七杂八 4篇
多线程 8篇
分布式 4篇
项目管理 6篇
知识普及 3篇
程序人生 7篇
网络编程 19篇
Windebug 2篇
VC 4篇
搜索 17篇
go 4篇
开源库学习 1篇

最新评论

基本编码规则（BER）---SNMP
Programming1234: 也就是说这里好像除了字节的最高位可能有调整外，其他地方也发生了变动，这部分的内容是属于哪个RFC里面规定的吗？
基本编码规则（BER）---SNMP
Programming1234: 这里810本来的二进制表示是：11 0010 1010（对应的十六进制是0x032A）按照文中的说法，当子对象标识大于127,则按规则(2)、(3)、将其分解为多个字节,最后一个字节的高位为0,其余字节的高位为1 为什么不是变成为1000 0011 0010 1010（对应的十六进制是0x832A）为什么这里是86 2A (810=11 0010 1010==>1000 0110 0010 1010)
多线程经典问题-----乘客做公交车问题解答2
m0_71462292: 这个afxmt.h的文件在哪？
log4cpp日志无法分卷的解决方案
wenqisong2004: 我们的项目采用log4cpp作为日志输出模块，但在使用中发现，如果是一个Services,或者是在Windows Server版本上，会出现日志无法正常分割的现象。 =====请问下你这里说的services是啥意思，是指的在docker容器里面吗？
基本编码规则（BER）---SNMP
qq_46057449: 为啥810不是86 2a 而是 2a 86

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。