中文分词基本方法

本文介绍了中文分词的三种主要方法:词典法中的最大匹配法、最大概率法和最短路径法,以及理解法和统计法。词典法通过匹配词典确定词汇,最大概率法则选取概率最高的分词结果,最短路径法则在词图中寻找最优路径。理解法尝试模拟人类理解句子的过程,而统计法依赖于语料库中字符串的频率。
摘要由CSDN通过智能技术生成


词典法

词典法分为:最大匹配法,最大概率法,最短路径法。


最大匹配法是按照一定顺序选取字符串中的若干个字当做一个词,去词典中查找。根据扫描方式分为:

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小);

4)双向最大匹配法(进行由左到右、由右到左两次扫描)

最大概率法:一句话可能包含多种分词结果,将其中概率最大的那个作为句子的分词结果。
最短路径指词图上选择一条词数最少的路径
   


理解法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值