[转]搜索引擎分词

最新推荐文章于 2024-07-16 14:08:43 发布

jundengcnsky

最新推荐文章于 2024-07-16 14:08:43 发布

阅读量457

点赞数

分类专栏：关于Lucence 文章标签：搜索引擎引擎 query lucene token 网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jundengcnsky/article/details/5726645

版权

现在网上有很多种分词方法。要精确必然损失性能，要性能那么精确度必然下降。

比如有句话:

"我是中国人"

看看这句话有多少种划分

我我是我是中我是中国我是中国人
是是中是中国是中国人
    中中国中国人
      国国人
        人

按照灰色区域划分，无疑是正确的。但是从全部分词划分上来说，分词的分法达到了 2^n种。

在我见过的分发中，很多种都是大同小异。而很多种都提到了一个概念——最大词匹配。

比如句子：“通信信息报：瑞星以技术和服务开拓网络安全市场”

按最大划分，"通信信息报"是一个名词，“瑞星”是一个名词，“网络安全市场”是一个名词。那么就是索引为：

"通信信息报 : 瑞星以技术和服务开拓网络安全市场"

这样理解上确实是好的，但是实际效果却未必如此。按照这种分词索引数据，将造成，搜索“通信”是搜索不到结果的。因为划分后并没有“通信”这个词，而只有“通信信息报”。

也许你会觉得这样就排除了 “通信”这个词对“通信信息报”这个词的干扰。但是在很多场合中，用户不可能那么精确得输入。比如，用户很可能搜索“通信报”。

所以我认为搜索引擎中的分词技术，并不是要实现精确索引。中文分词最大的用处是排除特殊的干扰。

比如还是这句话"通信信息报 : 瑞星以技术和服务开拓网络安全市场"，如果从词义匹配上划分，还可能被分成"通信信息报 : 瑞星以技术和服务开拓网络安全市场"。注意，这句话和“和服”完全无关，但是这种分法就把它给相关上了。

无疑这种歧义在整合海

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[转]搜索引擎分词

现在网上有很多种分词方法。要精确必然损失性能，要性能那么精确度必然下降。比如有句话:"我是中国人"看看这句话有多少种划分我我是我是中我是中国我是中国人是是中是中国是中国人中中国中国人国国人人按照灰色区域划分，无疑是正确的。但是从全部分词划分上来说，分词的分法达到了 2^n种。在我见过的分发中，很多种都是大同小异。而很多种都提到了一个概念——最大词匹配。比如句子：“通信信息报：瑞星以技术和服务开拓网络安全市场”按最大划分，"通信信息报"是
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。