文本分析的参数估计方法

声明:本文的总结是基于parameter estimation for text analysis这篇文章,想追根溯源的同学可以自己下载这篇文献阅读。本文是为了方便不太习惯阅读英文的同学的理解,以及加深本人自己对该文的理解和学习。

**
1. 参数估计方法(三种):MLE、MAP和贝叶斯估计**

两类常见的Inference问题:
Estimation问题:估计一个能够最好地描述观测值X的分布的参数,记为θ
Prediction(或Regression)问题:给定已有的观测值,计算一个新的观测值x出现的概率,即P(x|X)

本文总结的三种参数估计方法均是基于贝叶斯法则:
这里写图片描述
(1-1)
定义为相应的术语如下:
这里写图片描述
(1-2)

1.1 MLE(最大似然估计)

该方法就是最大化上式(1-2)中的likelihood部分。首先写出似然函数
这里写图片描述
给定数据集分布的参数,该数据集出现的概率可以写作每一个观测值出现的概率的乘积形式是因为一个重要的假设:所有观测样本之间独立同分布。该假设是本文讨论的三种参数估计方法的前提。
上式左右两边同时加log,将求积变成求和,这是为了方便之后求导,通过导数=0求得使似然函数取得最大值的θ ̂_ML,就是我们要求的参数θ的极大似然估计值。
这里写图片描述
(1-3)

1.2 MAP(最大后验估计)
Maximum A Posterior 估计类似于ML估计,但是它在ML估计的基础上增加了关于参数θ的先验信念。
这里写图片描述
(1-4)
这里写图片描述的转化是由于此处认为p(X)与参数无关,因为它是已发生的事实。
和ML估计值(1-3)对比,显然,MAP估计值(1-4)中多了参数的先验分布。实践时,p(θ)往往纳入了先验知识,以及用来防止过拟合(奥卡姆剃刀Occam’s razor原理:偏好更简单的模型以防止过拟合)。
备注:p(θ)还可以定义为p(θ|α),意思是θ本身也是一个随机变量,α是参数θ的参数,称之为超参数(hyperparameter)。

1.3 贝叶斯估计——Bayesian Estimation
上面的MLE和MAP都是点估计,只有贝叶斯估计才真正求出了参数θ的后验分布。也就是说,贝叶斯估计求的是p(θ│X),而MLE和MAP都只是求出了一个给定数据集X,对应的最可能的θ的值。
但是要求p(θ│X),由上面的贝叶斯法则可见,难点在于求出P(X)。P(X)可以写作
这里写图片描述

求出p(θ│X)便能得到参数θ的后验分布的均值和方差,进一步画出其CDF(累积概率密度函数)曲线。

2. 用投硬币实验举例:
假设一枚硬币,不知道是否是均匀的,假设它正面朝上的概率θ(参数)服从Beta分布,即先验是θ~Beta(5,5)。证据是已投掷20次,其中有12次正面朝上,8次反面朝上。下面分别用上面三种参数估计方法计算θ。

(1) MLE:
这里写图片描述
解得,
这里写图片描述

(2) MAP:
由于
这里写图片描述
解得,
这里写图片描述

(3) 贝叶斯估计:
这里写图片描述

可以发现θ的后验分布和先验分布都是Beta分布,Beta分布是共轭分布。
由于Beta(θ│α,β)分布的期望是
这里写图片描述
方差是
这里写图片描述

因此
这里写图片描述

至此,三种方法下的参数估计值(参数的分布)都已求完,画出图如下:
这里写图片描述

展开阅读全文

没有更多推荐了,返回首页