中文分词技术小结

本文总结了中文分词技术,包括规则分词的正向、逆向和双向最大匹配算法,以及统计分词中的语言模型、HMM模型和其他算法。统计分词因能处理歧义和未登录词而成为主流,而Jieba分词结合了规则和统计方法。
摘要由CSDN通过智能技术生成

规则分词

正向最大匹配

思想:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字符串的前i个字作为匹配字段,查找字典。若字典存在这样的一个i字词,则匹配成功,将其切分出来。如果不存在,则匹配失败,将匹配字段最后一个字去掉,继续匹配。
算法描述如下:
1、从左到右取待切分汉语句的m个字符作为匹配字段,m为机器词典中最长词条的字符数
2、查找机器词典并匹配。匹配成功则将其切分出来,若匹配不成功,则将最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有的词为止。

逆向最大匹配

逆向最大匹配的基本原理与正向最大匹配的原理相同。不同的是词切分的方向相反。逆向最大匹配从被处理的文档的末端开始匹配扫描,每次取最末端的i个字符作为匹配字段,若匹配成功则切分,若不成功则去掉匹配字段最前面的一个字,继续匹配。
实际上的运用则是将文档倒排,形成了逆序文档,然后根据逆序词典采用正向最大匹配即可。
由于汉语中偏正结构多,逆向最大匹配的误差要比正向最大匹配误差要小。

双向最大匹配

双向最大匹配是将正向最大匹配和逆向最大匹配的结果进行比较,根据最大匹配的原则,选取词数切分最少的为结果。根据SunM.S和Benjamin K.T(1995)的研究表明,中文中90.0%左右的句子,采用前两种算法得到的结果是一致且正确的,只有9.0%左右的句子两种算法结果不一,但必有一个是正确的,只有不到1.0%的句子,两个算法得到的结果是一样的且错误。

统计分词

主要思想是每个词看做是由词的最小单位的各个字组成,如果相连的字在不同的文本中出现的次数越多,就证明这些相连的字很可能就是一个词,
基于统计的分词,一般要做以下两步操作:
1、建立统计语言模型
2、对句子进行单词划分,然后对划分结果进行概率估算,获得概率最大的分词方式。如隐马尔可夫(HMM)、条件随机场(CRF)等

语言模型

用概率论描述语言模型就是:为长度m的字符串确定其概率分布

P ( ω 1 , ω 2 . . . , ω m ) = P ( ω 1 ) P ( ω 2 ∣ ω 1 ) . . . . P ( ω i ∣ ω 1 , ω 2 , . . . , ω i − 1 ) . . . P ( ω m ∣ ω 1 , ω 2 , . . . , ω m − 1 ) P(\omega_1,\omega_2...,\omega_m)=P(\omega_1)P(\omega_2|\omega1)....P(\omega_i|\omega_1,\omega_2,...,\omega_{i-1})...P(\omega_m|\omega_1,\omega_2,...,\omega_{m-1}) P(ω1,ω2...,ωm)=P(ω1)P(ω2ω1)....P(ωiω1,ω2,...,ωi1)...P(ωmω1,ω2,...,ωm1)
观察到文本过长时,计算难度会非常大。因此采用n-gram模型降低计算难度。n-gram就是在估算条件概率时,忽略距离大于等于n的上文词的影响,因此计算可以简化为:
P ( ω i ∣ ω 1 . . . , ω i − 1 ) ≈ P ( ω i ∣ ω i − ( n − 1 ) , . . . , ω i − 1 ) P(\omega_i|\omega_1...,\omega_{i-1}) \approx P(\omega_i|\omega_{i-(n-1)},...,\omega_{i-1}) P(ωiω1...,ωi1)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值