有监督参数估计是指已知分类器结构或函数形式,从训练样本中估计参数。
本文主要介绍贝叶斯决策(详见贝叶斯决策的过程)条件概率密度的有监督参数估计过程。方法有最大似然估计和贝叶斯参数估计法。
最大似然估计
假设参数为确定值,根据似然度最大进行最优估计。
给定数据 D 1 , D 2 . . . D c D_1,D_2...D_c D1,D2...Dc表示不同类别的样本。假设每类样本独立同分布(i.i.d. 万年不变的假设),用 D i D_i Di来估计 θ i θ_i θi,即对每个类求一个判别函数,用该类的样本来估计判别函数的参数。
注意区分特征空间和参数空间。参数估计的任务是得到 p ( x ∣ w i ) p(x|w_i) p(x∣wi)的形式,是在参数空间进行的。不妨设特征空间为d维,参数空间p维。
为了估计参数,需要如下几个步骤:
- 求似然(Likelihood) p ( D ∣ θ ) = ∏ k = 1 n p ( x k ∣ θ ) p(D|θ) =\prod_{k=1}^{n}p(x_k|θ) p(D∣θ)=k=1∏np(xk∣θ)
注意,上面这个式子针对的已经是具体的类别 w i w_i wi了,不要问 w w w参数去哪了。另外,这里的n代表样本数目,要和前面的类别数目c区分开。这个式子很好理解,即出现我们当前观测到的样本概率,求使它最大化的参数即可。 - 最大化似然 max θ p ( D ∣ θ ) → ▽ θ p ( D ∣ θ ) = 0 \max_θp(D|θ)→▽_θp(D|θ)=0 θmaxp(D∣θ)→▽θp(D∣θ)=0
这个梯度是在p维参数空间求解,即 ▽ θ p = [ ∂ ∂ θ 1 . . . . . . ∂ ∂ θ p ] ▽_θp= \begin{bmatrix} \frac{\partial}{\partialθ_1}\\ ...\\ ...\\ \frac{\partial}{\partialθ_p} \end{bmatrix} ▽θp=⎣⎢⎢⎡∂θ1∂......∂θp∂⎦⎥⎥⎤ - 求解梯度。可求解析解或梯度下降。(常用Log-Likelihood,易求解)
当先验 P ( θ ) P(\theta) P(θ)都相等时等同于最大后验概率(MAP)决策。
高斯密度最大似然估计
以贝叶斯决策过程里给出的高斯密度假设为例,对它进行最大似然参数估计。首先假设 σ \sigma σ已知,对 μ \mu μ进行估计。
单点情况:
对于所有样本:
估计值即为观测样本均值。
再来看 μ \mu μ和 σ \sigma σ都未知的情况。设数据服从一维高斯分布, θ 1 = μ \theta_1=\mu θ1