【中文分词】二阶隐马尔可夫模型2-HMM

浅唱书令

已于 2023-06-01 14:19:14 修改

阅读量192

点赞数

分类专栏：人工智能文章标签：中文分词机器学习人工智能自然语言处理

于 2016-12-15 15:43:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/keyboardlabourer/article/details/130980557

版权

人工智能专栏收录该内容

48 篇文章 11 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了二阶隐马尔可夫模型(2-HMM)在中文分词中的作用，指出HMM作为二阶Markov链在分词中的局限，并探讨了TnT算法及其平滑处理。同时，提到了Character-Based Generative Model作为解决召回率问题的尝试，以及开源实现Snownlp的相关讨论。

摘要由CSDN通过智能技术生成

在前一篇中介绍了用HMM做中文分词，对于未登录词(out-of-vocabulary, OOV)有良好的识别效果，但是缺点也十分明显——对于词典中的(in-vocabulary, IV)词却未能很好地识别。主要是因为，HMM本质上是一个Bigram的语法模型，未能深层次地考虑上下文(context)。对于此，本文将介绍更为复杂的二阶HMM以及开源实现。

1. 前言

n-gram语法模型

n-gram语法模型用来：在已知前面\(n-1\)个词\(w_1, \cdots, w_{n-1}\)的情况下，预测下一个词出现的概率：

\[P(w_n | w_1, \cdots, w_{n-1}) \]

常见的n-gram有Unigram(一元)、Bigram(二元)、Trigram(三元)，分别表示当前词出现的概率为自身词频、只与前面一个词相关、只与前面两个词相关；对应的计算公式如下：

\begin{align}
\text{Unigram:} \quad & \hat{P} (w_3) = \frac{f(w_3)}{N} \cr
\text{Big

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浅唱书令 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。