[转]搜索引擎分词

现在网上有很多种分词方法。要精确必然损失性能,要性能那么精确度必然下降。

比如有句话:

"我是中国人"

看看这句话有多少种划分

我 我是 我是中 我是中国 我是中国人
  是 是中 是中国 是中国人
    中 中国 中国人
      国 国人
        人

按照灰色区域划分,无疑是正确的。但是从全部分词划分上来说,分词的分法达到了 2^n种。

在我见过的分发中,很多种都是大同小异。而很多种都提到了一个概念——最大词匹配。

比如句子:“通信信息报:瑞星以技术和服务开拓网络安全市场”

按最大划分 ,"通信信息报"是一个名词,“瑞星”是一个名词,“网络安全市场”是一个名词。那么就是索引为:

"通信信息报 :  瑞星  以 技术 和 服务 开拓 网络安全市场"

这样理解上确实是好的,但是实际效果却未必如此。按照这种分词索引数据,将造成,搜索“通信”是搜索不到结果的。因为划分后并没有“通信”这个词,而只有“通信信息报”。

也许你会觉得这样就排除了 “通信”这个词对“通信信息报”这个词的干扰。但是在很多场合中,用户不可能那么精确得输入。比如,用户很可能搜索“通信报”。

所以我认为搜索引擎中的分词技术,并不是要实现精确索引。中文分词最大的用处是排除特殊的干扰。

比如还是这句话"通信信息报 :  瑞星  以 技术 和 服务 开拓 网络安全市场",如果从词义匹配上划分,还可能被分成"通信信息报 :  瑞星  以 技术 和服 务 开拓 网络安全市场"。注意,这句话和“和服”完全无关,但是这种分法就把它给相关上了。

无疑这种歧义在整合海

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值