Lucene笔记14-Lucene的分词-分词器的原理讲解

最新推荐文章于 2024-02-07 17:03:15 发布

王劭阳

最新推荐文章于 2024-02-07 17:03:15 发布

阅读量579

点赞数

分类专栏： Lucene

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36059561/article/details/83336744

版权

Lucene 专栏收录该内容

50 篇文章 1 订阅

订阅专栏

一、分词器原理

最主要的分词器有SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer。

先来研究一下SimpleAnalyzer。当一串数据传进来之后，会被转化成TokenStream这样一个东西，这个TokenStream中就保存着所有的分词信息。TokenStream是一个抽象类，它有两个实现类，分别是Tokenizer和TokenFilter。其中Tokenizer将一组数据划分成一个一个的语汇单元，TokenFilter将这些语汇单元进行过滤并处理，将通常是一组TokenFilter来完成这个操作，因为有的Filter是过滤停用词的，有的是需要将首字母转换成小写的，有的是将词语转换成原型的，等等。最后将数据传递给TokenStream。

二、示例详解

假设我们需要分词的是“how are you, thank you”这么一个字符串。首先这个字符串会被拆成“how”、“are”、“you”、“thank”、“you”这5个语汇单元，这5个语汇单元需要保存信息和位置，于是CharAttributeTerm保存了相应的语汇单元，OffsetTerm保存了各个词汇之间的偏移量，PositionIncrTerm保存了词于词之间的位置增量，默认为1，如果3个词中，第2个词是停用词，那么第1个和第3个词之间的位置增量就不是1了。其实Lucene查找这次词语是根据位置来查找的，如果同一个位置有两个词语，那么查找的时候都会查找出来，这是同义词的概念，现在描述不清楚，后面再详细介绍。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

王劭阳 CSDN认证博客专家 CSDN认证企业博客

码龄8年

345: 原创

5万+: 周排名

1万+: 总排名

13万+: 访问

: 等级

4144: 积分

113: 粉丝

174: 获赞

51: 评论

317: 收藏

私信

关注

热门文章

分类专栏

Vue 14篇
ElasticSearch 3篇
JVM精讲与GC调优
Jenkins 6篇
JUC并发编程与源码分析 15篇
Shiro 3篇
Hadoop 6篇
Nginx 8篇
ZooKeeper 5篇
Shell 7篇
LeetCode周赛 15篇
Redis 13篇
Spring Cloud 21篇
Spring注解驱动 10篇
Spring Boot 17篇
随手记录 6篇
剑指Offer 68篇
ActiveMQ 71篇
CentOS 7 3篇
Lucene 50篇

最新评论

Vue笔记-目录
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数。
Vue笔记-目录
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性。
LeetCode周赛专栏简介
chaofengdev: 竟然没人关注你。我关注你了。你的第一个粉丝。
ElasticSearch笔记02-ElasticSearch入门
_____miss: 只有keyword类型字段才可以做排序，text不可以
ElasticSearch笔记02-ElasticSearch入门
_____miss: 你的精准匹配，term是不做分词查询，也就是整个输入作为完整的字符串去做匹配，但是你在村的时候，text是对address做了分词的，所以匹配不到

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。