文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

置顶

LarryNLPIR

于 2012-12-15 11:15:36 发布

阅读量4.2w

点赞数 37

分类专栏： NLP/IR PGM/Topic Model Math

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangliuy/article/details/8296481

版权

本文介绍了文本分析中的参数估计方法：最大似然估计（MLE）、最大后验概率估计（MAP）和贝叶斯估计。通过扔硬币的伯努利实验举例，阐述了三种估计方法的原理和区别，揭示了先验知识如何影响参数估计结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型，然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数，我们可以有很多重要的应用，比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。

1、最大似然估计MLE

首先回顾一下贝叶斯公式

$p(\theta|X) = \frac{p(X|\theta) \cdot p(\theta)}{p(X)}$

这个公式也称为逆概率公式，可以将后验概率转化为基于似然函数和先验概率的计算表达式，即

$posterior = \frac{likelihood \cdot prior}{evidence}$

最大似然估计就是要用似然函数取到最大值时的参数值作为估计值，似然函数可以写做

$L(\theta | X) = p(X | \theta) = \prod_{x \in X}{p(X = x | \theta)}$

由于有连乘运算，通常对似然函数取对数计算简便，即对数似然函数。最大似然估计问题可以写成

$\hat{\theta}_{ML} = argmax_\theta L(\theta | X) = argmax_\theta \sum_{x \in X}\log p(x|\theta)$

这是一个关于 $\theta$ 的函数，求解这个优化问题通常对 $\theta$ 求导，得到导数为0的极值点。该函数取得最大值是对应的 $\theta$ 的取值就是我们估计的模型参数。

以扔硬币的伯努利实验为例子，N次实验的结果服从二项分布，参数为P，即每次实验事件发生的概率，不妨设为是得到正面的概率。为了估计P，采用最大似然估计，似然函数可以写作

最低0.47元/天解锁文章

评论 19

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。