提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
python词法分析,第一部分是中文分词,英文分词一个单词就是分一个单词,中文分词容易出现歧义,也没有明确的分词规则。
提示:以下是本篇文章正文内容,下面案例可供参考
一、规则分词
规则分词也被称为基于字典,词库匹配分词,是通过字典,对待分词语句进行分词,规则分词分为正向最大匹配法,逆向最大匹配法,双向最大匹配法。
1.正向最大匹配法:
正向最大匹配法是假设字典中的最长词是A,然后将待处理文本中的A个字与字典进行匹配,如果匹配成功,则匹配成功的字段作为“词”被分割出来,匹配失败的话,去掉A的最后一个字符再进行匹配,循环此过程,直到循环结束。
2.逆向最大匹配法
匹配方法如字义,“我爱北京天安门”,依旧是按照最大的A进行匹配,不过是从“天安门”开始匹配。
3.双向最大匹配法
同时使用正向最大匹配法与逆向最大匹配法
(1)如果切割得到的词数目不一致,则选取分词数量较少的那一组。
(2)如果切割得到的词数目一致
如果分词结果完全一样,则认为没有区别
如果不一样,则选取分词结果中汉字数目较少的那一组作为最终结果。
二、统计分词
统计分词跟规则分词最大的不同是引入了概率。
1.建立统计语言模型
2.对句子进行单词划分,对划分结果进行概率统计,获得概率最大的分词方式。
1.统计语言模型
2.HMM
隐马尔科夫模型(Hidden Markov Model,HMM)
1) 问题是基于序列的,比如时间序列、状态序列。
2 )问题中有两类数据,一类序列数据是可以观测到的,即观测序列;而另一类数据是不能观察到的,即隐藏状态序列,简称状态序列。