中文切词分词

在使用搜索引擎的时候通过输入词语进行搜索,已经是我们每天最多的行为了。输入词语的合法性、代表性也决定了搜索结果的效果。但是对于搜索引擎本身来说,对一篇文章是否能通过合适的切词分词,抽象出文章的主题也对搜索效果有很大的影响。

匹配过程

所谓的匹配过程是指的拿到一个待切词的语句之后,是从语句的起始位置开始查找,还是从语句的结束位置开始查找。
如果是从语句的起始位置开始查找,那么就成为正向最大匹配;否则称为逆向最大匹配。最大匹配其实就是对待切词语句在词典中寻找最长的匹配词。
下面只对正向最大匹配进行讲解,具体的算法过程如下:

词库包括五个词语,我们简单给出, 所谓、匹配、过程、切词、语句;待切词语句: 所谓的匹配过程是指的拿到一个待切词的语句之后
从语句的起始位置开始扫描
1)拿到“所”字去词库查找,查找词库没有这个词
2)向后继续拿到一个字,现在“所谓”,查找词库得出包含这个词
重复上述操作,知道达到语句结束。

算法分类

在当前的中文的切词分词中,一般分为机械的切词分词、基于语义的切词还有基于统计的切词分词三种策略。机械的切词分词就是通过给定词库机械的拿要被切的文本与词库进行对比,然后把匹配到的词切出来。其他两种就需要基于大数据的分析,在海量的数据文件中分析那些是词语,那些句子可以被切,生成一套策略,然后根据策略对被切的字进行处理。在这里只对机械切词分析进行

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值