n-gram重探 Q&A

最新推荐文章于 2024-09-27 22:47:07 发布

置顶 beixiahuaideren

最新推荐文章于 2024-09-27 22:47:07 发布

阅读量1k

点赞数

文章标签：自然语言处理算法模型问答贝叶斯

本文链接：https://blog.csdn.net/u011274209/article/details/51500602

版权

虽然之前一直用这个最基本的模型，但今天发现自己对这个模型确实不够熟悉，因此，对此参考了不少文献，以问答的形式进行了整理。

1、 $n$ - $gram$ 的训练是什么？训练的参数是什么？

对于模型某条字符串的计算公式是： $P(w_1^k{\rm{) }}$ $=$ ${\rm{ }}P\left( {{w_1}} \right)$ ${\rm{ }}P\left( {{w_2}|{w_1}} \right)$ $\cdots$ $P\left( {{w_k}|w_1^{k - 1}} \right)$ ， $n$ - $gram$ 就是 $P\left( {{w_k}|w_1^{k - 1}} \right) = P\left( {{w_k}|w_{k - n + 1}^{k - 1}} \right)$ ，忽略了它的历史。
假设在一个模型里，单词数量为 $V$ 。对于一个 $1$ - $gram$ 来说，有 $V-1$ 个独立的参数，对于这些参数，我们施加一个约束（参数和为 $1$ ）。对于一个 $2$ - $gram$ 来说， $P{\rm{ }}\left( {{w_2}{\rm{ | }}{w_1}{\rm{ }}} \right)$ 的独立参数个数是 $V(V-1)$ ，而 $P\left( {{w}}\right)$ 的个数是 $V-1$ ，因此总的独立参数为 $V(V-1)+（V-1）= {V^2} - 1$ 。总之，一个 $n$ - $gram$ 的独立参数个数是 ${V^n} - 1$ ，其中对于 $P{\rm{ }}\left( {{w_n}{\rm{ | }}{w_1^{n-1}}{\rm{ }}} \right)$ 的参数是 $V^{n-1}(V-1)$ ，我们叫做 $n$ 阶参数（order-n parameters）；加上 $（n-1）$ - $gram$ 的总共 $V^{n-1}-1$ 个参数，和为 $V^{n-1}-1$ 个参数。
说完了参数，我们说下训练。对于训练集，我们对以上参数进行最大似然估计（MLE），估计方法如下： $P\left( {{w_n}|w_1^{n - 1}} \right) = \frac{{C\left( {w_1^{n - 1}{w_n}} \right)}}{{\sum\nolimits_w {C\left( {w_1^{n - 1}w} \right)} }}$ ，其中C是count的意思。

2、 $n$ - $gram$ 这里的MLE是怎么得出来的？

统计次数就代表了它的最大似然估计，是因为对于 $n$ - $gram$ 模型来说，我们把这个模型的预测，当成了一个多项分布。对于后继出现的词汇的概率，根据其多项分布的概率进行预测。从直观上这么理解多项分布：我们获得一个语料，类似于骰子，这个骰子有 $X$ 面，每一面对应着上面所提到的独立参数。每一面都是互斥的，穷举的状态，其和为1。（这个多项分布的概念，在很多自然语言处理书和论文里都没有提及，以至于MLE结果的得出不容易理解。）
$P\left( {{x_1},{x_2} \cdots ,{x_k}} \right) = \prod\limits_{i = 1}^k{p_i^{{x_i}}}$ ，满足 $\sum\limits_{i = 1}^k {{p_i} = 1}$
${x_1},{x_2} \cdots ,{x_k}$ 是指示变量，当输出的状态为 $k$ 是 ${x_k}$ 为 $1$ ，否则为 $0$ 。这里的状态，就是预测的词汇。对于多项分布，其参数，也就是 ${p_i}$ 的最大似然估计是：
$\hat {{p_i}} = \frac{{\sum\nolimits_t {x_i^t} }}{N}$
这也就是刚好是统计次数，count部分。

3、 $n$ - $gram$ 既然使用了MLE，那能不能引入最大后验估计（MAP）或者贝叶斯估计？

答案是可以的。我们问题1里提到的参数，如果看成是一个随机变量，那么我们可以引入先验分布，使用贝叶斯公式。
$p\left( {\theta |\chi } \right) = \frac{{p\left( {\chi |\theta } \right)p\left( \theta \right)}}{{\int {p\left( {\chi |\theta '} \right)p\left( {\theta '} \right)d\theta '} }}$
最大后验估计： ${\theta ^{MAP}} = \mathop {\arg \max }\limits_{\theta \in \Theta } p\left( {\chi |\theta } \right)p\left( \theta \right)\\$
贝叶斯估计： ${\theta ^B} = E\left[ {\theta |\chi } \right]$
正如问题2所说， $n$ - $gram$ 使用了多项分布，而我们都知道多项分布的共轭分布是狄利克雷分布，因此，使用狄利克雷分布作为先验分布，是一个很自然而想法。
在狄利克雷先验下的最大后验估计是：
${\theta ^{MAP}} = \mathop {\arg \max }\limits_{\theta \in \Theta } \frac{{\Gamma (\sum\nolimits_{k = 1}^K {{\alpha _K}} )}}{{\prod\nolimits_{k = 1}^K {\Gamma ({\alpha _K})} }}\prod\limits_{k = 1}^K {\theta _k^{{n_k} + {\alpha _k} - 1}}$
等价于加m平滑的最大似然估计，先验可以通过大量通用语料训练，然后使用小规模的领域专用数据进行计算贝叶斯最大后验估计。