文本分析的参数估计方法

最新推荐文章于 2022-11-05 00:21:59 发布

JoyanMei

最新推荐文章于 2022-11-05 00:21:59 发布

阅读量920

点赞数 1

分类专栏：文本分析算法基础文章标签：参数估计贝叶斯 MLE MAP Beta分布

本文链接：https://blog.csdn.net/Mature222/article/details/72832011

版权

文本分析同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

算法基础

1 篇文章 0 订阅

订阅专栏

声明：本文的总结是基于parameter estimation for text analysis这篇文章，想追根溯源的同学可以自己下载这篇文献阅读。本文是为了方便不太习惯阅读英文的同学的理解，以及加深本人自己对该文的理解和学习。

**
1. 参数估计方法（三种）：MLE、MAP和贝叶斯估计**

两类常见的Inference问题：
Estimation问题：估计一个能够最好地描述观测值X的分布的参数，记为θ
Prediction（或Regression）问题：给定已有的观测值，计算一个新的观测值x出现的概率，即P(x|X)

本文总结的三种参数估计方法均是基于贝叶斯法则：
这里写图片描述
（1-1）
定义为相应的术语如下：

（1-2）

1.1 MLE（最大似然估计）

该方法就是最大化上式（1-2）中的likelihood部分。首先写出似然函数
这里写图片描述
给定数据集分布的参数，该数据集出现的概率可以写作每一个观测值出现的概率的乘积形式是因为一个重要的假设：所有观测样本之间独立同分布。该假设是本文讨论的三种参数估计方法的前提。
上式左右两边同时加log，将求积变成求和，这是为了方便之后求导，通过导数=0求得使似然函数取得最大值的θ ̂_ML，就是我们要求的参数θ的极大似然估计值。
这里写图片描述
（1-3）

1.2 MAP（最大后验估计）
Maximum A Posterior 估计类似于ML估计，但是它在ML估计的基础上增加了关于参数θ的先验信念。
这里写图片描述
（1-4）
的转化是由于此处认为p(X)与参数无关，因为它是已发生的事实。
和ML估计值（1-3）对比，显然，MAP估计值（1-4）中多了参数的先验分布。实践时，p(θ)往往纳入了先验知识，以及用来防止过拟合（奥卡姆剃刀Occam’s razor原理：偏好更简单的模型以防止过拟合）。
备注：p(θ)还可以定义为p(θ|α)，意思是θ本身也是一个随机变量，α是参数θ的参数，称之为超参数（hyperparameter）。

1.3 贝叶斯估计——Bayesian Estimation
上面的MLE和MAP都是点估计，只有贝叶斯估计才真正求出了参数θ的后验分布。也就是说，贝叶斯估计求的是p(θ│X)，而MLE和MAP都只是求出了一个给定数据集X，对应的最可能的θ的值。
但是要求p(θ│X)，由上面的贝叶斯法则可见，难点在于求出P(X)。P(X)可以写作
这里写图片描述