初识建立索引过程用的分词器和对同义词的处理

最新推荐文章于 2019-09-19 14:17:53 发布

wangchenggong1988

最新推荐文章于 2019-09-19 14:17:53 发布

阅读量1.7k

点赞数

分类专栏：全文检索

本文链接：https://blog.csdn.net/wangchenggong88/article/details/8679497

版权

全文检索专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1.不同的分词器会对同一段文本进行不同的处理，形成不同的词汇集合，供检索之用；

常见的有4种分词器：标准分词器、停用词分词器、空格分词器、简单分词器

拆分后的每个分词都有自己的参数信息，比如它在原文本中的位置（偏移量）、它在词汇中的位置增量。

我们比较重视的是中文分词器。

mmseg4j的jar包中的MMSegAnalyzer和ComplexAnalyzer为我们提供了中文分词器

前者只能将文本拆分为2个汉字组成的词语，后者则能将文本拆分成较复杂的词语；

2.我们希望能通过分词的同义词也能检索到该段文本，那么在建立索引文件的时候该如何处理呢？

这里需要有一个同义词库，在对原始文本进行分词操作的时候对每一个分词判断有无对应的同义词，如果有的话，把其同义词追加其后，这样以来形成的索引文件就包含了分词的同义词信息。

从而使得，在通过某个词的同义词进行检索时，也能找到该文本。

wangchenggong1988

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

wangchenggong1988 CSDN认证博客专家 CSDN认证企业博客

码龄13年

150: 原创

2万+: 周排名

7240: 总排名

38万+: 访问

: 等级

5659: 积分

126: 粉丝

145: 获赞

184: 评论

152: 收藏

私信

关注

热门文章

分类专栏

最新评论

一个sql子查询的错误，记录一下
wangchenggong1988: 写update语句时会顾忌对表起别名，但不起别名也可以，你可以把整张表的名字作为别名啊
if和else if带来的一个bug
wangchenggong1988: review代码和自测实在很重要，做好的话能避免很多问题
if和else if带来的一个bug
wangchenggong1988: 值得庆幸的地方： 1. 有几次上线前的检查起到了作用，比如行情表不存在、同级车sql语法报错、发现了task表的param字段 2.好记性不如烂笔头，把涉及表结构调整、配置调整的地方都记录在案，避免上线前忘记
if和else if带来的一个bug
wangchenggong1988: 最近的几个低级bug小结： 1.集合判空 list != null || list.size()>0 中间应该用&& 2.该用||的地方却大意用成了&& , contentStyle == 20 && contentStyle == 40 其实应该是contentStyle == 20 || contentStyle == 40 3.continue、break 需要正确使用，比如在迭代器中有时候需要在iterator.remove()之后continue, 再比如【没数据 break 没在售continue】的一段代码逻辑 4.给默认为空的日期类型字段赋值时，不能赋值为"" 5. 复制的代码真容易出错，连着两遍set方法导致一个线上问题 6.get请求中的加密手机号未经URLEncoder编码，结果不被识别，所以遇到这种情况尽可能直接使用post请求
一个sql子查询的错误，记录一下
wangchenggong1988: 把 Integer赋值给int, 把Boolean赋值给boolean这种包装类型赋值给基本类型的操作，都需要做非空校验

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。