PY词法分析

dou998

已于 2024-03-16 14:17:36 修改

阅读量337

点赞数 5

文章标签： python

于 2024-03-12 22:15:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dou998/article/details/136662362

版权

本文介绍了Python词法分析中的规则分词，包括正向、逆向和双向最大匹配法，以及统计分词中的统计语言模型和利用HMM的隐马尔科夫模型。着重讨论了如何通过概率统计解决中文分词中的歧义问题。

摘要由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、规则分词
二、统计分词
- 1.统计语言模型
- 2.HMM

前言

python词法分析，第一部分是中文分词，英文分词一个单词就是分一个单词，中文分词容易出现歧义，也没有明确的分词规则。

提示：以下是本篇文章正文内容，下面案例可供参考

一、规则分词

规则分词也被称为基于字典，词库匹配分词，是通过字典，对待分词语句进行分词，规则分词分为正向最大匹配法，逆向最大匹配法，双向最大匹配法。

1.正向最大匹配法：
正向最大匹配法是假设字典中的最长词是A，然后将待处理文本中的A个字与字典进行匹配，如果匹配成功，则匹配成功的字段作为“词”被分割出来，匹配失败的话，去掉A的最后一个字符再进行匹配，循环此过程，直到循环结束。
2.逆向最大匹配法
匹配方法如字义，“我爱北京天安门”，依旧是按照最大的A进行匹配，不过是从“天安门”开始匹配。
3.双向最大匹配法
同时使用正向最大匹配法与逆向最大匹配法
（1）如果切割得到的词数目不一致，则选取分词数量较少的那一组。
（2）如果切割得到的词数目一致
如果分词结果完全一样，则认为没有区别
如果不一样，则选取分词结果中汉字数目较少的那一组作为最终结果。

二、统计分词

统计分词跟规则分词最大的不同是引入了概率。
1.建立统计语言模型
2.对句子进行单词划分，对划分结果进行概率统计，获得概率最大的分词方式。

1.统计语言模型

2.HMM

隐马尔科夫模型（Hidden Markov Model，HMM）
1）问题是基于序列的，比如时间序列、状态序列。
2 ）问题中有两类数据，一类序列数据是可以观测到的，即观测序列；而另一类数据是不能观察到的，即隐藏状态序列，简称状态序列。 HMM模型示意图

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

dou998 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2: 原创

145万+: 周排名

27万+: 总排名

741: 访问

: 等级

28: 积分

10: 粉丝

8: 获赞

0: 评论

9: 收藏

私信

关注

热门文章

最新评论

NLP 关键词提取技术
CSDN-Ada助手: 非常棒的博文！你对NLP关键词提取技术的介绍非常清晰和详细。希望你能继续分享更多关于自然语言处理领域的知识。除了有监督学习和无监督学习，你可能还想了解一些其他关键词提取技术，比如基于词频和TF-IDF算法的方法，以及基于深度学习的方法，这些方法也在实际应用中发挥着重要作用。期待你未来的更新！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
PY词法分析
CSDN-Ada助手: 恭喜你开始了博客创作！标题虽然是“【无标题】”，但你的第一篇博客内容已经引人入胜了。接下来，我建议你可以尝试给博客添加一个有吸引力的标题，让读者一眼就被吸引过来。同时，也可以考虑在内容上更加深入地探讨一些话题，或者分享一些个人见解和经验。希望你在博客创作的道路上越走越远，不断进步！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

NLP 关键词提取技术

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。