个人博客:www.qiuyun-blog.cn
系统模型
对于线性高斯模型
y = H x + w \boldsymbol{y}=\boldsymbol{Hx}+\boldsymbol{w} y=Hx+w其中 x ∈ R N \boldsymbol{x}\in \mathbb{R}^N x∈RN为待估计变量,其概率密度为 p ( x ) p(\boldsymbol{x}) p(x)。 w \boldsymbol{w} w是高斯白噪声,即 w ∼ N ( w ∣ a , C w ) \boldsymbol{w}\sim \mathcal{N}(\boldsymbol{w}|\boldsymbol{a},\boldsymbol{C}_{\boldsymbol{w} }) w∼N(w∣a,Cw)。信号估计的目标是根据已知的模型信息,从观测向量 y ∈ R M \boldsymbol{y}\in \mathbb{R}^M y∈RM中恢复出原始信号 x \boldsymbol{x} x。为了得到确定解,一般 y \boldsymbol{y} y的维度大于 x \boldsymbol{x} x的维度,即模型为超定方程组。
最小二乘法 (Least Square, LS)
x \boldsymbol{x} x的最小二乘估计,通过最小化如下损失函数得到
J = ∣ ∣ y − H x ∣ ∣ 2 J=||\boldsymbol{y}-\boldsymbol{Hx}||^2 J=∣∣y−Hx∣∣2由于该损失函数是凸函数,因此我们通过计算损失函数对 x \boldsymbol{x} x的导数
∂ J ∂ x = − 2 H T y + 2 H T H x \frac{\partial J}{\partial \boldsymbol{x} }=-2\boldsymbol{H}^T\boldsymbol{y}+2\boldsymbol{H}^T\boldsymbol{H}\boldsymbol{x} ∂x∂J=−2HTy+2HTHx并令导数为零,得到该模型的最小二乘估计
x ^ LS = ( H T H ) − 1 H T y \hat{\boldsymbol{x} }_{\text{LS} }=(\boldsymbol{H}^T\boldsymbol{H})^{-1}\boldsymbol{H}^T\boldsymbol{y} x^LS=(HTH)−1HTy
几何解释: 如图所示,由于 H \boldsymbol{H} H所构成的超平面用 C \mathcal{C} C表示,最小化 J = ∣ ∣ y − H x ∣ ∣ 2 J=||\boldsymbol{y}-\boldsymbol{Hx}||^2 J=∣∣y−Hx∣∣2所描述的是,找到 y \boldsymbol{y} y在超平面 C \mathcal{C} C上的正交投影。
Remarks:
最小二乘的优势在于算法结构简单,其缺陷在于,由于忽略了噪声的存在,因此当噪声很大的时候,其估计性能极差。
最大似然估计(Maximum likelihood, ML)
似然函数的定义(摘自Wiki Pedia):
In frequentist inference, a likelihood function (often simply the likelihood) is a function of the parameters of a statistical model, given specific observed data. Likelihood functions play a key role in frequentist inference, especially methods of estimating a parameter from a set of statistics. In informal contexts, “likelihood” is often used as a synonym for “probability”. In mathematical statistics, the two terms have different meanings. Probability in this mathematical context describes the plausibility of a random outcome, given a model parameter value, without reference to any observed data. Likelihood describes the plausibility of a model parameter value, given specific observed data.
在概率推论中,一个似然函数(简称似然)是给定明确的观测数据,关于一个统计模型的参数的函数。似然函数在概率推论中扮演着重要的角色,尤其是从一组统计数据中估计参数。在非正式的文献中,似然函数通常被认为是“概率”。在统计数学中,这两者有不同的含义。在数学文献中,概率描述的是给定模型参数值下一个随机输出的可能性,没有参考任何观测数据。似然函数描述的是给定具体观测数据,模型参数值得可能性。
Following Bayes’ Rule, the likelihood when seen as a conditional density can be multiplied by the prior probability density of the parameter and then normalized, to give a posterior probability density.
根据贝叶斯公式,似然函数被看作是条件概率,可以乘上先验概率然后归一化得到后验概率。
对于线性高斯模型 y = H x + w \boldsymbol{y}=\boldsymbol{Hx}+\boldsymbol{w} y=Hx+w,为了方便计算,这里我们设 w ∼ N ( 0 , σ 2 I ) \boldsymbol{w}\sim \mathcal{N}(\boldsymbol{0},\sigma^2\mathbf{I}) w∼N(0,σ2I),则该模型的其似然函数为
L ( x ) = p ( y ∣ x ) = N ( y ∣ H x , σ 2 I ) = ( 2 π σ 2 ) − M 2 exp ( − 1 2 σ 2 ( y − H x ) T ( y − H x ) ) L(\boldsymbol{x})=p(\boldsymbol{y}|\boldsymbol{x})=\mathcal{N}(\boldsymbol{y}|\boldsymbol{Hx},\sigma^2\mathbf{I})\\ \qquad \qquad \qquad \qquad \qquad \quad \ =(2\pi\sigma^2)^{-\frac{M}{2} }\exp \left(-\frac{1}{2\sigma^2}(\boldsymbol{y}-\boldsymbol{Hx})^T(\boldsymbol{y}-\boldsymbol{Hx})\right) L(x)=p(y∣x)=N(y∣Hx,σ2I) =(2πσ2)−2Mexp(−2σ21(y−Hx)T(y−Hx))等式两边取对数,有
ℓ ( x ) = ln L ( x ) = − 1 2 σ 2 ( y − H x ) T ( y − H x ) − M 2 ln ( 2 π σ 2 ) \ell(\boldsymbol{x})=\ln L(\boldsymbol{x})=-\frac{1}{2\sigma^2}(\boldsymbol{y}-\boldsymbol{Hx})^T(\boldsymbol{y}-\boldsymbol{Hx})-\frac{M}{2}\ln (2\pi\sigma^2) ℓ(x)=lnL(x)=−2σ21(y−Hx)T(y−Hx)−2Mln(2πσ2) 计算对数似然函数关于 x \boldsymbol{x} x的偏导数,有
∂ ℓ ( x ) ∂ x = − 1 2 σ 2 ( 2 H T y − 2 H T H x ) = 0 ⇒ x ^ ML = ( H T H ) − 1 H T y \frac{\partial \ell(\boldsymbol{x})}{\partial \boldsymbol{x} }=-\frac{1}{2\sigma^2}(2\boldsymbol{H}^T\boldsymbol{y}-2\boldsymbol{H}^T\boldsymbol{H}\boldsymbol{x})=0 \ \Rightarrow \hat{\boldsymbol{x} }_{\text{ML} }=(\boldsymbol{H}^T\boldsymbol{H})^{-1}\boldsymbol{H}^T\boldsymbol{y} ∂x∂ℓ(x)=−2σ21(2HTy−2HTHx)=0 ⇒x^ML=(HTH)−1HTy 因此,我们发现,线性高斯模型的最大似然解和最小二乘解一致。
最小均方误差估计(Minimum mean square error, MMSE)
定义如下贝叶斯均方误差(Bayesian mean square error, Bmse)
Bmse ( x ^ ) = E { ∣ ∣ x − x ^ ∣ ∣ 2 } = ∫ ∣ ∣ x − x ^ ∣ ∣ 2 p ( x , y ) d x d y \text{Bmse}(\hat{\boldsymbol{x} })=\mathbb{E}\left\{||\boldsymbol{x}-\hat{\boldsymbol{x} }||^2\right\}=\int ||\boldsymbol{x}-\hat{\boldsymbol{x} }||^2p(\boldsymbol{x},\boldsymbol{y})\text{d}\boldsymbol{x}\text{d}\boldsymbol{y} Bmse(x^)=E{
∣∣x−x^∣∣2}=∫∣∣x−x^∣∣2p(x,y)dxdy 最小均方误差估计量,即寻找使得贝叶斯均方误差最小的 x \boldsymbol{x} x
x ^ = arg min x ∫ [ ∫ ∣ ∣ x − x ^ ∣ ∣ 2 p ( x ∣ y ) d x ] p ( y ) d y