非主流自然语言处理——遗忘算法系列（三）：分词

最新推荐文章于 2019-05-29 20:25:43 发布

gzdmcaoyc

最新推荐文章于 2019-05-29 20:25:43 发布

阅读量3.8k

点赞数

分类专栏：遗忘算法文章标签：自然语言处理遗忘算法分词无监督词库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gzdmcaoyc/article/details/50085711

版权

本文介绍了如何利用生成的词库进行分词，通过马尔可夫假设简化问题，提出一种无监督的分词算法，该算法具有O(N)级时间复杂度，词库自维护且支持多语种混合分词。文章提供了实现代码和演示程序下载。

摘要由CSDN通过智能技术生成

一、前言

　　前面介绍了词库的自动生成的方法，本文介绍如何利用前文所生成的词库进行分词。

二、分词的原理

　　分词的原理，可以参看吴军老师《数学之美》中的相关章节，这里摘取Google黑板报版本中的部分：

　　

　　从上文中，可以知道分词的任务目标：给出一个句子S，找到一种分词方案，使下面公式中的P（S）最大：

　　

　　不过，联合概率求起来很困难，这种情况我们通常作马尔可夫假设，以简化问题，即：任意一个词wi的出现概率只同它前面的词 wi-1 有关。

　　关于这个问题，吴军老师讲的深入浅出，整段摘录如下：

　　

　　另外，如果我们假设一个词与其他词都不相关，即相互独立时，此时公式最简，如下：

　　

　　这个假设分词无关的公式，也是本文所介绍的分词算法所使用的。

三、分词的实现

　　1、算法分析

　　　　问：假设分词结果中各词相互无关是否可行？

　　　　答：可行，前提是使用遗忘算法系列（二）中所述方法生成的词库，理由如下：

<

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。