NLP之分词

分词

规则分词
前向最大匹配法

找到词典中最长词的长度I,将当前需要分词的字符串截取前I个
在字典中进行匹配,找到匹配成功。找不到匹配失败,将截取的前I个字符的最后一位过滤掉,继续匹配,直到全部匹配完成

	字典为:[南京市长,长江大桥]
	指定字符串: 南京市长江大桥
	返回结果为: 南京市长, 江,大桥 

很明显满足不了我们所需要的分词结果

后项最大匹配法

原理和正向的相同,只是从字符串尾部开始比较

	字典为:[南京市长,长江大桥]
	指定字符串: 南京市长江大桥
	返回结果为: 南京市,长江大桥

相比正向的结果好了很多,但是中国语言的博大精深,许多问题并不能一一解决,就提出了下面的双向最大匹配法

双向最大匹配法

同时满足前向和后项匹配法,

前向:南京市长, 江,大桥
后向:南京市,长江大桥

选取次数比较少的第二种结果,如果次数相同,选取单个字数少的结果

统计分词

HMM模型
隐马尔科夫模型(HMM):将分词作为字在字串中的序列标注任务来完成的,每个字在构造中都有一个确定的构词位置
及B(词首),M(词中),E(词尾),S(单独成词)

中文/分词/是/文本处理/不可或缺/的/一步!
中/B 文/E 分/B 词/E	....等

理论是是如上,但是很可能出现BBB。BEM等输出,显然是不合理的

这里HMM做了理你各位一个假设:其次马尔科夫假设,每个输出仅仅与上一个输出有关 (公式就不写了,我也不记不住),可以排除类似BBB等不合理组合

CRF模型
是一种基于马尔科夫思想的统计模型,马尔科夫中很经典的假设就是仅仅与他前面的状态有关,显然有偏差,于是又提出了CRF,不仅与前面的有关,还与后边的有关

混合分词

结合规则分词和统计分词

结论

基于规则的分词通过给定的字典进行分词,当我们遇到新词的时候无法很好的进行分词
基于统计的分词可以较好的应对新词出现的特殊场景,不过太过于依赖语聊的质量
因此实践中多是采用两种方法的结合,及混合分词

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值