NLP之分词

最新推荐文章于 2022-02-27 09:59:15 发布

凡卿

最新推荐文章于 2022-02-27 09:59:15 发布

阅读量275

点赞数 2

分类专栏：提升文章标签： NLP

本文链接：https://blog.csdn.net/qq_42849269/article/details/83305677

版权

6 篇文章 0 订阅

订阅专栏

找到词典中最长词的长度I，将当前需要分词的字符串截取前I个
在字典中进行匹配，找到匹配成功。找不到匹配失败，将截取的前I个字符的最后一位过滤掉，继续匹配，直到全部匹配完成

	字典为：[南京市长，长江大桥]
	指定字符串： 南京市长江大桥
	返回结果为： 南京市长， 江，大桥

很明显满足不了我们所需要的分词结果

原理和正向的相同，只是从字符串尾部开始比较

	字典为：[南京市长，长江大桥]
	指定字符串： 南京市长江大桥
	返回结果为： 南京市，长江大桥

相比正向的结果好了很多，但是中国语言的博大精深，许多问题并不能一一解决，就提出了下面的双向最大匹配法

同时满足前向和后项匹配法，

前向：南京市长， 江，大桥
后向：南京市，长江大桥

选取次数比较少的第二种结果，如果次数相同，选取单个字数少的结果

HMM模型
隐马尔科夫模型（HMM）：将分词作为字在字串中的序列标注任务来完成的，每个字在构造中都有一个确定的构词位置
及B(词首)，M（词中），E（词尾），S（单独成词）

中文/分词/是/文本处理/不可或缺/的/一步！
中/B 文/E 分/B 词/E	....等

理论是是如上，但是很可能出现BBB。BEM等输出，显然是不合理的

这里HMM做了理你各位一个假设：其次马尔科夫假设，每个输出仅仅与上一个输出有关（公式就不写了，我也不记不住），可以排除类似BBB等不合理组合

CRF模型
是一种基于马尔科夫思想的统计模型，马尔科夫中很经典的假设就是仅仅与他前面的状态有关，显然有偏差，于是又提出了CRF，不仅与前面的有关，还与后边的有关

结合规则分词和统计分词

基于规则的分词通过给定的字典进行分词，当我们遇到新词的时候无法很好的进行分词
基于统计的分词可以较好的应对新词出现的特殊场景，不过太过于依赖语聊的质量
因此实践中多是采用两种方法的结合，及混合分词

关注

专栏目录