参数密度估计
大多数实际应用过程中,缺乏概率分布的具体解析式,因此需要通过所观察到的样本进行进行估计,通常分为:
- 参数估计
- 非参数估计
参数估计
- 已知:概率分布的解析表达式
- 求解:确定表达式中的参数
主要方法
- 最大似然估计(频率学派)
- 最大后验概率估计(多个先验,贝叶斯学派)
- 贝叶斯推理
- 最大熵模型
- 混合模型(EM算法)
最大似然估计
算法
1)把参数当做未知实数(不是变量) ------频率学派
2)需要解析式,很多时候是困难的。解析式是正态分布时,等同于最小二乘法。
- 随机样本 x1,x2,...,xN 来自概率分布 p(x;θ)
假设样本对立,则联合概率:
p(X;θ)=p(x1,x2,...,xN;θ)=∏k=1Np(xk;θ)最大似然方法(max likelihood)估计使似然函数取最大值(一般来说先取对数,方便计算)
θ¯ML=argmaxθ∏k=1Kp(xk;θ)- 导数为零,进行求解。(或者其他有效的最优化技术,如梯度下降算法等)。
多数的方程会不可导,可以查阅相关资料进行最优化
具体细节
一般去对数似然函数,大多数也是这么做的,求解方便(如高斯公式取对数)
我们可以看出,原来需要对整个连乘公式求偏导,现在需要为每个概率公式求偏导,然后累加。许多公式本身求偏导是有很多良好性质(logister等),计算很简便。
性质
- 渐进无偏估计(无偏性,根据定义证明即可)
- 渐进一致的
- 渐进高效的,最小方差值
参数估计的质量
我们假设有一个理想的模型(我们的目标,也是模式识别的基础),但是目前手里只有一些抽样出来的样本。我们可以认为,学习出来的模型是基于少量样本的,但是我们追求的是适用于所有样本的模型。
当前模型估计的越复杂,那么在该数据集上(目前训练集上)准确性越好,那么模型的鲁棒性(在所有样本上)就会有所下降
当前模型估计的越简单,那么在该数据集上准确性就有所下降,但是模型的鲁棒性会相对上升。
我们不知道目前数据集的可靠性,做的太好(过分推理,过拟合),在测试集上就不一定表现的很好。做的太差(欠拟合,从训练样本中,学习了很少),在测试集上表现平平。这边说的做的太好,做的太差,当然是相对于训练集的。
因此,到底要做怎么样的平衡,通常就是借助验证集来评判。
- 偏差:真实值与估计值的距离(训练集上的表现)
- 方差:对于不同数据集,参数估计值的变化
对于高斯分布而言,我们很容易证明:
- 均值估计是无偏的
- 方差估计是有偏的(样本很大的时候,偏差消失。因为,当样本很大,先验作用开始不明显,也就是频率学认为先验来自于样本。或者可以从贝叶斯公式也能看出。)
最大后验概率估计
算法
- 最大后验概率认为 θ 是随机变量。而不是一个未知参数。(两派之争)
后验概率:
p(θ|X),X=x1,x2,...,xN根据贝叶斯定理求出后验概率,然后最大化后验概率(MAP)
p(θ|X)=p(X|θ)p(θ)p(X)- 导数为零,进行求解。(或者其他有效的最优化技术)。
∂p(θ|X)∂θ=0或者∂p(X|θ)p(θ)∂θ=0
讨论
- 主要差别在于先验(当先验相同时,或者差别不大时,其差别很小)
贝叶斯推理
算法
- 已知
N
个样本集合
X 和先验概率 P(θ) ,计算条件概率密度函数 p(x|X)
其中
最大熵
熵是系统不确定性的度量
定义:
在具体应用是,只需要看看概率密度函数需要满足那些条件即可。
若均值和方差作为其它约束,对于,概率密度函数的最大熵估计为高斯分布
混合模型
线性组合表示
p(x)
其中需要满足一些概率性质(和为1)
选取合适,可以近似任何连续的密度函数
准备工作
- 选取相关密度组成函数 p(x|j) ,也就是 p(x|j;θ)
- 根据观察样本,求解相关参数 θ,Pj
方法
最大化似然函数
难以求解最大值,本质上缺少标签信息,无监督的问题。EM算法可以求解此类问题。
EM算法
- 有监督学习问题中,概率密度函数为 py(y;θ)
- 那么在无监督中,
px(x;θ)=∫Y(x)py(y;θ)dy 最大似然估计
∑k∂lnpy(yk;θ)∂θ=0EM 在观察样本和 θ 当前估计的条件下最大化似然函数的期望
算法流程
1)计算期望
Q(θ;theta(t))=E[∑kln(py(yk;θ|X;;θ(t)))]
2)最大化
∂Q(θ;θ(t))∂θ=0似然函数一直在不断增大,直至收敛
讨论
- 假设有标签
p(xk,jk;θ)=p(xk|jk;θ)Pjk - 似然
L(θ)=∑k=1Nln(p(xk|jk;θ)Pjk)
- 假设有标签
上课笔记