PY词法分析

本文介绍了Python词法分析中的规则分词,包括正向、逆向和双向最大匹配法,以及统计分词中的统计语言模型和利用HMM的隐马尔科夫模型。着重讨论了如何通过概率统计解决中文分词中的歧义问题。
摘要由CSDN通过智能技术生成

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

python词法分析,第一部分是中文分词,英文分词一个单词就是分一个单词,中文分词容易出现歧义,也没有明确的分词规则。


提示:以下是本篇文章正文内容,下面案例可供参考

一、规则分词

规则分词也被称为基于字典,词库匹配分词,是通过字典,对待分词语句进行分词,规则分词分为正向最大匹配法,逆向最大匹配法,双向最大匹配法。

1.正向最大匹配法:
正向最大匹配法是假设字典中的最长词是A,然后将待处理文本中的A个字与字典进行匹配,如果匹配成功,则匹配成功的字段作为“词”被分割出来,匹配失败的话,去掉A的最后一个字符再进行匹配,循环此过程,直到循环结束。
2.逆向最大匹配法
匹配方法如字义,“我爱北京天安门”,依旧是按照最大的A进行匹配,不过是从“天安门”开始匹配。
3.双向最大匹配法
同时使用正向最大匹配法与逆向最大匹配法
(1)如果切割得到的词数目不一致,则选取分词数量较少的那一组。
(2)如果切割得到的词数目一致
如果分词结果完全一样,则认为没有区别
如果不一样,则选取分词结果中汉字数目较少的那一组作为最终结果。

二、统计分词

统计分词跟规则分词最大的不同是引入了概率。
1.建立统计语言模型
2.对句子进行单词划分,对划分结果进行概率统计,获得概率最大的分词方式。

1.统计语言模型

2.HMM

隐马尔科夫模型(Hidden Markov Model,HMM)
1) 问题是基于序列的,比如时间序列、状态序列。
2 )问题中有两类数据,一类序列数据是可以观测到的,即观测序列;而另一类数据是不能观察到的,即隐藏状态序列,简称状态序列。HMM模型示意图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值