机器学习笔记之二十一——基于统计的中文分词方法

最新推荐文章于 2024-03-24 20:00:00 发布

JAVA技术分享官-乐乐

最新推荐文章于 2024-03-24 20:00:00 发布

阅读量6.1k

点赞数

分类专栏：机器学习文章标签：基于统计的中文分词方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35946969/article/details/88029227

版权

机器学习专栏收录该内容

26 篇文章 5 订阅

订阅专栏

中文NLP最基础的问题应该就是分词了，毕竟中文不像英文一样单词与单词之间都有空格存在，所以将句子中的词语分开就是机器对一个句子或者一篇文章进行NLP的第一步。

分词的方法许多，比如基于字典的暴力分词，基于统计的语义分词。因为目前中文分词领域最有效果的就是基于统计的分词方法，所以，我先看它。

基于统计的中文分词方法

这里介绍的是利用有向无环图DAG求最大概率路径的方法，以“去北京玩耍”这句话为示例进行讲解。

继续写下去，到最后end结束时会得到四条路径，概率值最大的那一条就是我们需要的，同时路径所包含的词语也就是我们的分词结果。

jieba分词就用到了这种方法。

参考：

https://www.cnblogs.com/pinard/p/6677078.html

http://www.cnblogs.com/zhbzz2007/p/6084196.html

JAVA技术分享官-乐乐

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。