PRML学习总结(2)——Probability Distributions

2.1 Binary Variables

二元变量最常见的是投硬币, x = 1 x=1 x=1代表"head", x = 0 x=0 x=0代表"tail"。
p ( x = 1 ∣ μ ) = μ p ( x = 1 | \mu ) = \mu p(x=1μ)=μ
其中 0 ⩽ μ ⩽ 1 0 \leqslant \mu \leqslant 1 0μ1,亦可表示为
Bern ⁡ ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x \operatorname { Bern } ( x | \mu ) = \mu ^ { x } ( 1 - \mu ) ^ { 1 - x } Bern(xμ)=μx(1μ)1x
这也是常常被称为Bernoulli distribution
E [ x ] = μ var ⁡ [ x ] = μ ( 1 − μ ) \begin{aligned} \mathbb { E } [ x ] & = \mu \\ \operatorname { var } [ x ] & = \mu ( 1 - \mu ) \end{aligned} E[x]var[x]=μ=μ(1μ)
下面考虑最大似然问题
N N N个数据 D = { x 1 , … , x N } \mathcal { D } = \left\{ x _ { 1 } , \ldots , x _ { N } \right\} D={x1,,xN}
p ( D ∣ μ ) = ∏ n = 1 N p ( x n ∣ μ ) = ∏ n = 1 N μ x n ( 1 − μ ) 1 − x n p ( \mathcal { D } | \mu ) = \prod _ { n = 1 } ^ { N } p \left( x _ { n } | \mu \right) = \prod _ { n = 1 } ^ { N } \mu ^ { x _ { n } } ( 1 - \mu ) ^ { 1 - x _ { n } } p(Dμ)=n=1Np(xnμ)=n=1Nμxn(1μ)1xn
μ M L = 1 N ∑ n = 1 N x n \mu _ { \mathrm { ML } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } x _ { n } μML=N1n=1Nxn
那么考虑一种情况,如果总共投了3次,有3次都是"head",那么由ML估计可以得到 μ = 1 \mu=1 μ=1,但是这是不可能的,这说明模型过拟合了!后面将利用引入先验减轻过拟合!
下面引入二项分布,总共 N N N次投掷中,有 m m m次为"head":
Bin ⁡ ( m ∣ N , μ ) = ( N m ) μ m ( 1 − μ ) N − m \operatorname { Bin } ( m | N , \mu ) = \left( \begin{array} { c } { N } \\ { m } \end{array} \right) \mu ^ { m } ( 1 - \mu ) ^ { N - m } Bin(mN,μ)=(Nm)μm(1μ)Nm
( N m ) ≡ N ! ( N − m ) ! m ! \left( \begin{array} { c } { N } \\ { m } \end{array} \right) \equiv \frac { N ! } { ( N - m ) ! m ! } (Nm)(Nm)!m!N!
其期望和方差为
E [ m ] ≡ ∑ m = 0 N m Bin ⁡ ( m ∣ N , μ ) = N μ \mathbb { E } [ m ] \equiv \sum _ { m = 0 } ^ { N } m \operatorname { Bin } ( m | N , \mu ) = N \mu E[m]m=0NmBin(mN,μ)=Nμ
var ⁡ [ m ] ≡ ∑ m = 0 N ( m − E [ m ] ) 2 Bin ⁡ ( m ∣ N , μ ) = N μ ( 1 − μ ) \operatorname { var } [ m ] \equiv \sum _ { m = 0 } ^ { N } ( m - \mathbb { E } [ m ] ) ^ { 2 } \operatorname { Bin } ( m | N , \mu ) = N \mu ( 1 - \mu ) var[m]m=0N(mE[m])2Bin(mN,μ)=Nμ(1μ)

2.1.1 The beta distribution

正如前面所述,在小数据集中很容易过拟合,为了能从贝叶斯观点看这个问题,就必须对 μ \mu μ引入先验,引入先验的原则必须让后续的计算容易运算。在此Beta分布刚好符合这个条件
Beta ⁡ ( μ ∣ a , b ) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a − 1 ( 1 − μ ) b − 1 \operatorname { Beta } ( \mu | a , b ) = \frac { \Gamma ( a + b ) } { \Gamma ( a ) \Gamma ( b ) } \mu ^ { a - 1 } ( 1 - \mu ) ^ { b - 1 } Beta(μa,b)=Γ(a)Γ(b)Γ(a+b)μa1(1μ)b1
E [ μ ] = a a + b \mathbb { E } [ \mu ] = \frac { a } { a + b } E[μ]=a+ba
var ⁡ [ μ ] = a b ( a + b ) 2 ( a + b + 1 ) \operatorname { var } [ \mu ] = \frac { a b } { ( a + b ) ^ { 2 } ( a + b + 1 ) } var[μ]=(a+b)2(a+b+1)ab
其中 a , b a,b a,b为beta分布的超参数
在这里插入图片描述
利用此先验可得到后验
p ( μ ∣ m , l , a , b ) ∝ μ m + a − 1 ( 1 − μ ) l + b − 1 p ( \mu | m , l , a , b ) \propto \mu ^ { m + a - 1 } ( 1 - \mu ) ^ { l + b - 1 } p(μm,l,a,b)μm+a1(1μ)l+b1
其中 m m m表示"head"的次数, l l l表示"tail"的次数。
p ( μ ∣ m , l , a , b ) = Γ ( m + a + l + b ) Γ ( m + a ) Γ ( l + b ) μ m + a − 1 ( 1 − μ ) l + b − 1 p ( \mu | m , l , a , b ) = \frac { \Gamma ( m + a + l + b ) } { \Gamma ( m + a ) \Gamma ( l + b ) } \mu ^ { m + a - 1 } ( 1 - \mu ) ^ { l + b - 1 } p(μm,l,a,b)=Γ(m+a)Γ(l+b)Γ(m+a+l+b)μm+a1(1μ)l+b1
后验刚好也是Beta分布,当先验和后验是同一类分布时,称为共轭分布!该后验分布就是在Beta分布上加上了 ( m , l ) (m,l) (m,l)。当我们做预测时,
p ( x = 1 ∣ D ) = ∫ 0 1 p ( x = 1 ∣ μ ) p ( μ ∣ D ) d μ = ∫ 0 1 μ p ( μ ∣ D ) d μ = E [ μ ∣ D ] p ( x = 1 | \mathcal { D } ) = \int _ { 0 } ^ { 1 } p ( x = 1 | \mu ) p ( \mu | \mathcal { D } ) \mathrm { d } \mu = \int _ { 0 } ^ { 1 } \mu p ( \mu | \mathcal { D } ) \mathrm { d } \mu = \mathbb { E } [ \mu | \mathcal { D } ] p(x=1D)=01p(x=1μ)p(μD)dμ=01μp(μD)dμ=E[μD]
p ( x = 1 ∣ D ) = m + a m + a + l + b p ( x = 1 | \mathcal { D } ) = \frac { m + a } { m + a + l + b } p(x=1D)=m+a+l+bm+a
分析上式,当 m , l → ∞ m , l \rightarrow \infty m,l时,就退化为ML问题。从之前的Beta分布随着超参数变化的图可知,随着所观察的数据越来越多,后验概率的方差
var ⁡ [ μ ] = a b ( a + b ) 2 ( a + b + 1 ) \operatorname { var } [ \mu ] = \frac { a b } { ( a + b ) ^ { 2 } ( a + b + 1 ) } var[μ]=(a+b)2(a+b+1)ab
将会趋于0,也就是说不确定度越小。

2.2 Multinomial Variables

p ( x ∣ μ ) = ∏ k = 1 K μ k x k p ( \mathbf { x } | \boldsymbol { \mu } ) = \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { x _ { k } } p(xμ)=k=1Kμkxk
其中 x = ( 0 , 0 , 1 , 0 , 0 , 0 ) T \mathbf { x } = ( 0,0,1,0,0,0 ) ^ { \mathrm { T } } x=(0,0,1,0,0,0)T, μ = ( μ 1 , … , μ K ) T \boldsymbol { \mu } = \left( \mu _ { 1 } , \ldots , \mu _ { K } \right) ^ { \mathrm { T } } μ=(μ1,,μK)T, ∑ k μ k = 1 \sum _ { k } \mu _ { k } = 1 kμk=1
同样考虑ML问题
p ( D ∣ μ ) = ∏ n = 1 N ∏ k = 1 K μ k x n k = ∏ k = 1 K μ k ( ∑ n x n k ) = ∏ k = 1 K μ k m k p ( \mathcal { D } | \boldsymbol { \mu } ) = \prod _ { n = 1 } ^ { N } \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { x _ { n k } } = \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { \left( \sum _ { n } x _ { n k } \right) } = \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { m _ { k } } p(Dμ)=n=1Nk=1Kμkxnk=k=1Kμk(nxnk)=k=1Kμkmk
μ k M L = m k N \mu _ { k } ^ { \mathrm { ML } } = \frac { m _ { k } } { N } μkML=Nmk
其中 m k = ∑ n x n k m _ { k } = \sum _ { n } x _ { n k } mk=nxnk
当考虑多项式分布
Mult ⁡ ( m 1 , m 2 , … , m K ∣ μ , N ) = ( N m 1 m 2 … m K ) ∏ k = 1 K μ k m k \operatorname { Mult } \left( m _ { 1 } , m _ { 2 } , \ldots , m _ { K } | \boldsymbol { \mu } , N \right) = \left( \begin{array} { c } { N } \\ { m _ { 1 } m _ { 2 } \dots m _ { K } } \end{array} \right) \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { m _ { k } } Mult(m1,m2,,mKμ,N)=(Nm1m2mK)k=1Kμkmk
其中 ∑ k = 1 K m k = N \sum _ { k = 1 } ^ { K } m _ { k } = N k=1Kmk=N

2.2.1 The Dirichlet distribution

与二项分布引入beta分布作为先验那样,对于多项式分布也可以引入先验分布Dirichlet!
Dir ⁡ ( μ ∣ α ) = Γ ( α 0 ) Γ ( α 1 ) ⋯ Γ ( α K ) ∏ k = 1 K μ k α k − 1 \operatorname { Dir } ( \boldsymbol { \mu } | \boldsymbol { \alpha } ) = \frac { \Gamma \left( \alpha _ { 0 } \right) } { \Gamma \left( \alpha _ { 1 } \right) \cdots \Gamma \left( \alpha _ { K } \right) } \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { \alpha _ { k } - 1 } Dir(μα)=Γ(α1)Γ(αK)Γ(α0)k=1Kμkαk1
α 0 = ∑ k = 1 K α k \alpha _ { 0 } = \sum _ { k = 1 } ^ { K } \alpha _ { k } α0=k=1Kαk
则后验分布为
p ( μ ∣ D , α ) = Dir ⁡ ( μ ∣ α + m ) = Γ ( α 0 + N ) Γ ( α 1 + m 1 ) ⋯ Γ ( α K + m K ) ∏ k = 1 K μ k α k + m k − 1 \begin{aligned} p ( \boldsymbol { \mu } | \mathcal { D } , \boldsymbol { \alpha } ) & = \operatorname { Dir } ( \boldsymbol { \mu } | \boldsymbol { \alpha } + \mathbf { m } ) \\ & = \frac { \Gamma \left( \alpha _ { 0 } + N \right) } { \Gamma \left( \alpha _ { 1 } + m _ { 1 } \right) \cdots \Gamma \left( \alpha _ { K } + m _ { K } \right) } \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { \alpha _ { k } + m _ { k } - 1 } \end{aligned} p(μD,α)=Dir(μα+m)=Γ(α1+m1)Γ(αK+mK)Γ(α0+N)k=1Kμkαk+mk1

2.3 The Gaussian Distribution

N ( x ∣ μ , Σ ) = 1 ( 2 π ) D / 2 1 ∣ Σ ∣ 1 / 2 exp ⁡ { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } \mathcal { N } ( \mathbf { x } | \boldsymbol { \mu } , \mathbf { \Sigma } ) = \frac { 1 } { ( 2 \pi ) ^ { D / 2 } } \frac { 1 } { | \boldsymbol { \Sigma } | ^ { 1 / 2 } } \exp \left\{ - \frac { 1 } { 2 } ( \mathbf { x } - \boldsymbol { \mu } ) ^ { \mathrm { T } } \boldsymbol { \Sigma } ^ { - 1 } ( \mathbf { x } - \boldsymbol { \mu } ) \right\} N(xμ,Σ)=(2π)D/21Σ1/21exp{21(xμ)TΣ1(xμ)}
熵最大的分布就是高斯分布!
很多模型都是采用高斯分布,但是不得不承认高斯分布也存在着一些问题:
1)其对称的协方差矩阵 Σ \Sigma Σ存在着 D ( D + 1 ) / 2 D ( D + 1 ) / 2 D(D+1)/2个自由参数,再加上 μ \boldsymbol { \mu } μ D D D个独立的自由参数,总共有 D ( D + 3 ) / 2 D ( D + 3 ) / 2 D(D+3)/2个参数,参数量随着 D 2 D^2 D2增长,同时在求取 Σ \Sigma Σ的逆时,也会带来很大的计算复杂度。常见的简化方法是用对角矩阵代替一般的协方差矩阵 Σ \Sigma Σ,即 Σ = diag ⁡ ( σ i 2 ) \boldsymbol { \Sigma } = \operatorname { diag } \left( \sigma _ { i } ^ { 2 } \right) Σ=diag(σi2)。或者更简化为 Σ = σ 2 I \boldsymbol { \Sigma } = \sigma ^ { 2 } \mathbf { I } Σ=σ2I。这三种方式的二维高斯如下图所示
在这里插入图片描述
尽管这能在求逆时带来便捷,但是限制了模型的表达能力。
2)另一个限制高斯模型的是,高斯分布为单峰分布,很难拟合多模型的分布。
对于以上问题,可以利用隐变量模型解决以上两个问题;引入离散变量,从而可以得到高斯混合模型… …

2.3.1 Conditional Gaussian distributions

x ∈ R D \mathbf { x }\in \mathbf{R}^D xRD,且服从 N ( x ∣ μ , Σ ) \mathcal { N } ( \mathbf { x } | \boldsymbol { \mu } , \mathbf { \Sigma } ) N(xμ,Σ),将 x \mathbf{x} x划分为两部分 x a \mathbf { x } _ { a } xa x b \mathbf { x } _ { b } xb,其中 x a ∈ R M \mathbf { x }_a\in \mathbf{R}^M xaRM, x b ∈ R D − M \mathbf { x }_b\in \mathbf{R}^{D-M} xbRDM
x = ( x a x b ) \mathbf { x } = \left( \begin{array} { c } { \mathbf { x } _ { a } } \\ { \mathbf { x } _ { b } } \end{array} \right) x=(xaxb)
对于均值和方差定义如下
μ = ( μ a μ b ) \boldsymbol { \mu } = \left( \begin{array} { l } { \boldsymbol { \mu } _ { a } } \\ { \boldsymbol { \mu } _ { b } } \end{array} \right) μ=(μaμb)
Σ = ( Σ a a Σ a b Σ b a Σ b b ) \boldsymbol { \Sigma } = \left( \begin{array} { l l } { \boldsymbol { \Sigma } _ { a a } } & { \boldsymbol { \Sigma } _ { a b } } \\ { \boldsymbol { \Sigma } _ { b a } } & { \boldsymbol { \Sigma } _ { b b } } \end{array} \right) Σ=(ΣaaΣbaΣabΣbb)
除了协方差矩阵,这儿定义一个precision矩阵
Λ ≡ Σ − 1 \Lambda \equiv \Sigma ^ { - 1 } ΛΣ1
Λ = ( Λ a a Λ a b Λ b a Λ b b ) \boldsymbol { \Lambda } = \left( \begin{array} { l l } { \boldsymbol { \Lambda } _ { a a } } & { \mathbf { \Lambda } _ { a b } } \\ { \boldsymbol { \Lambda } _ { b a } } & { \mathbf { \Lambda } _ { b b } } \end{array} \right) Λ=(ΛaaΛbaΛabΛbb)
现在开始计算条件概率 p ( x a ∣ x b ) p \left( \mathbf { x } _ { a } | \mathbf { x } _ { b } \right) p(xaxb),只考虑高斯分布的指数部分
− 1 2 ( x − μ ) T Σ − 1 ( x − μ ) = − 1 2 ( x a − μ a ) T Λ a a ( x a − μ a ) − 1 2 ( x a − μ a ) T Λ a b ( x b − μ b ) − 1 2 ( x b − μ b ) T Λ b a ( x a − μ a ) − 1 2 ( x b − μ b ) T Λ b b ( x b − μ b ) \begin{aligned} - \frac { 1 } { 2 } ( \mathbf { x } - \boldsymbol { \mu } ) ^ { \mathrm { T } } \boldsymbol { \Sigma } ^ { - 1 } ( \mathbf { x } - \boldsymbol { \mu } ) & = \\ & - \frac { 1 } { 2 } \left( \mathbf { x } _ { a } - \boldsymbol { \mu } _ { a } \right) ^ { \mathrm { T } } \mathbf { \Lambda } _ { a a } \left( \mathbf { x } _ { a } - \boldsymbol { \mu } _ { a } \right) - \frac { 1 } { 2 } \left( \mathbf { x } _ { a } - \boldsymbol { \mu } _ { a } \right) ^ { \mathrm { T } } \boldsymbol { \Lambda } _ { a b } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) \\ & - \frac { 1 } { 2 } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) ^ { \mathrm { T } } \boldsymbol { \Lambda } _ { b a } \left( \mathbf { x } _ { a } - \boldsymbol { \mu } _ { a } \right) - \frac { 1 } { 2 } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) ^ { \mathrm { T } } \boldsymbol { \Lambda } _ { b b } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) \end{aligned} 21(xμ)TΣ1(xμ)=21(xaμa)TΛaa(xaμa)21(xaμa)TΛab(xbμb)21(xbμb)TΛba(xaμa)21(xbμb)TΛbb(xbμb)
以上刚好为 x a \mathbf { x }_a xa的二次型函数,说明 p ( x a ∣ x b ) p \left( \mathbf { x } _ { a } | \mathbf { x } _ { b } \right) p(xaxb)也是高斯分布。
Σ a ∣ b = Λ a a − 1 \boldsymbol { \Sigma } _ { a | b } = \mathbf { \Lambda } _ { a a } ^ { - 1 } Σab=Λaa1
μ a ∣ b = Σ a ∣ b { Λ a a μ a − Λ a b ( x b − μ b ) } = μ a − Λ a a − 1 Λ a b ( x b − μ b ) \begin{aligned} \boldsymbol { \mu } _ { a | b } & = \boldsymbol { \Sigma } _ { a | b } \left\{ \mathbf { \Lambda } _ { a a } \boldsymbol { \mu } _ { a } - \boldsymbol { \Lambda } _ { a b } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) \right\} \\ & = \boldsymbol { \mu } _ { a } - \boldsymbol { \Lambda } _ { a a } ^ { - 1 } \boldsymbol { \Lambda } _ { a b } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) \end{aligned} μab=Σab{ΛaaμaΛab(xbμb)}=μaΛaa1Λab(xbμb)

Λ a a = ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 Λ a b = − ( Σ a a − Σ a b Σ b b − 1 Σ b a ) − 1 Σ a b Σ b b − 1 \begin{aligned} \boldsymbol { \Lambda } _ { a a } & = \left( \boldsymbol { \Sigma } _ { a a } - \boldsymbol { \Sigma } _ { a b } \boldsymbol { \Sigma } _ { b b } ^ { - 1 } \boldsymbol { \Sigma } _ { b a } \right) ^ { - 1 } \\ \mathbf { \Lambda } _ { a b } & = - \left( \boldsymbol { \Sigma } _ { a a } - \boldsymbol { \Sigma } _ { a b } \boldsymbol { \Sigma } _ { b b } ^ { - 1 } \boldsymbol { \Sigma } _ { b a } \right) ^ { - 1 } \boldsymbol { \Sigma } _ { a b } \boldsymbol { \Sigma } _ { b b } ^ { - 1 } \end{aligned} ΛaaΛab=(ΣaaΣabΣbb1Σba)1=(ΣaaΣabΣbb1Σba)1ΣabΣbb1
所以
μ a ∣ b = μ a + Σ a b Σ b b − 1 ( x b − μ b ) Σ a ∣ b = Σ a a − Σ a b Σ b b − 1 Σ b a \begin{array} { l } { \boldsymbol { \mu } _ { a | b } = \boldsymbol { \mu } _ { a } + \boldsymbol { \Sigma } _ { a b } \boldsymbol { \Sigma } _ { b b } ^ { - 1 } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) } \\ { \boldsymbol { \Sigma } _ { a | b } = \boldsymbol { \Sigma } _ { a a } - \boldsymbol { \Sigma } _ { a b } \boldsymbol { \Sigma } _ { b b } ^ { - 1 } \boldsymbol { \Sigma } _ { b a } } \end{array} μab=μa+ΣabΣbb1(xbμb)Σab=ΣaaΣabΣbb1Σba

2.3.2 Marginal Gaussian distributions

p ( x a ) = N ( x a ∣ μ a , Σ a a ) p \left( \mathbf { x } _ { a } \right) = \mathcal { N } \left( \mathbf { x } _ { a } | \boldsymbol { \mu } _ { a } , \boldsymbol { \Sigma } _ { a a } \right) p(xa)=N(xaμa,Σaa)

2.3.3 Bayes’ theorem for Gaussian variables

这儿提出一个概念为:线性高斯模型
p ( x ) = N ( x ∣ μ , Λ − 1 ) p ( y ∣ x ) = N ( y ∣ A x + b , L − 1 ) \begin{aligned} p ( \mathbf { x } ) & = \mathcal { N } \left( \mathbf { x } | \boldsymbol { \mu } , \mathbf { \Lambda } ^ { - 1 } \right) \\ p ( \mathbf { y } | \mathbf { x } ) & = \mathcal { N } \left( \mathbf { y } | \mathbf { A } \mathbf { x } + \mathbf { b } , \mathbf { L } ^ { - 1 } \right) \end{aligned} p(x)p(yx)=N(xμ,Λ1)=N(yAx+b,L1)
其中, μ , A , b \boldsymbol { \mu },\mathbf { A },\mathbf { b } μ,A,b为控制均值的参数, Λ , L \mathbf { \Lambda },\mathbf { L } Λ,L为precision矩阵。

p ( y ) = N ( y ∣ A μ + b , L − 1 + A Λ − 1 A T ) p ( x ∣ y ) = N ( x ∣ Σ { A T L ( y − b ) + Λ μ } , Σ ) \begin{aligned} p ( \mathbf { y } ) & = \mathcal { N } \left( \mathbf { y } | \mathbf { A } \boldsymbol { \mu } + \mathbf { b } , \mathbf { L } ^ { - 1 } + \mathbf { A } \mathbf { \Lambda } ^ { - 1 } \mathbf { A } ^ { \mathrm { T } } \right) \\ p ( \mathbf { x } | \mathbf { y } ) & = \mathcal { N } \left( \mathbf { x } | \boldsymbol { \Sigma } \left\{ \mathbf { A } ^ { \mathrm { T } } \mathbf { L } ( \mathbf { y } - \mathbf { b } ) + \boldsymbol { \Lambda } \boldsymbol { \mu } \right\} , \boldsymbol { \Sigma } \right) \end{aligned} p(y)p(xy)=N(yAμ+b,L1+AΛ1AT)=N(xΣ{ATL(yb)+Λμ},Σ)
其中
Σ = ( Λ + A T L A ) − 1 \boldsymbol { \Sigma } = \left( \boldsymbol { \Lambda } + \mathbf { A } ^ { \mathrm { T } } \mathbf { L } \mathbf { A } \right) ^ { - 1 } Σ=(Λ+ATLA)1

2.3.4 Maximum likelihood for the Gaussian

μ M L = 1 N ∑ n = 1 N x n \boldsymbol { \mu } _ { \mathrm { ML } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \mathbf { x } _ { n } μML=N1n=1Nxn
Σ M L = 1 N ∑ n = 1 N ( x n − μ M L ) ( x n − μ M L ) T \boldsymbol { \Sigma } _ { \mathrm { ML } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \left( \mathbf { x } _ { n } - \boldsymbol { \mu } _ { \mathrm { ML } } \right) \left( \mathbf { x } _ { n } - \boldsymbol { \mu } _ { \mathrm { ML } } \right) ^ { \mathrm { T } } ΣML=N1n=1N(xnμML)(xnμML)T
计算其期望
E [ μ M L ] = μ E [ Σ M L ] = N − 1 N Σ \begin{aligned} \mathbb { E } \left[ \boldsymbol { \mu } _ { \mathrm { ML } } \right] & = \boldsymbol { \mu } \\ \mathbb { E } \left[ \boldsymbol { \Sigma } _ { \mathrm { ML } } \right] & = \frac { N - 1 } { N } \boldsymbol { \Sigma } \end{aligned} E[μML]E[ΣML]=μ=NN1Σ
发现方差是有偏的,因此可以修正为
Σ ~ = 1 N − 1 ∑ n = 1 N ( x n − μ M L ) ( x n − μ M L ) T \widetilde { \Sigma } = \frac { 1 } { N - 1 } \sum _ { n = 1 } ^ { N } \left( \mathbf { x } _ { n } - \boldsymbol { \mu } _ { \mathrm { ML } } \right) \left( \mathbf { x } _ { n } - \boldsymbol { \mu } _ { \mathrm { ML } } \right) ^ { \mathrm { T } } Σ =N11n=1N(xnμML)(xnμML)T

2.3.5 Sequential estimation

序列估计就是指每次只处理一个数据,这个对于在线学习有着很重要的指导意义。 μ M L ( N ) \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N ) } μML(N)表示在观测到 N N N个数据后最大似然估计的均值。
μ M L ( N ) = 1 N ∑ n = 1 N x n = 1 N x N + 1 N ∑ n = 1 N − 1 x n = 1 N x N + N − 1 N μ M L ( N − 1 ) = μ M L ( N − 1 ) + 1 N ( x N − μ M L ( N − 1 ) ) \begin{aligned} \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N ) } & = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \mathbf { x } _ { n } \\ & = \frac { 1 } { N } \mathbf { x } _ { N } + \frac { 1 } { N } \sum _ { n = 1 } ^ { N - 1 } \mathbf { x } _ { n } \\ & = \frac { 1 } { N } \mathbf { x } _ { N } + \frac { N - 1 } { N } \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N - 1 ) } \\ & = \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N - 1 ) } + \frac { 1 } { N } \left( \mathbf { x } _ { N } - \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N - 1 ) } \right) \end{aligned} μML(N)=N1n=1Nxn=N1xN+N1n=1N1xn=N1xN+NN1μML(N1)=μML(N1)+N1(xNμML(N1))
以上公式就可以进行在线学习,在观测到 N − 1 N-1 N1个数据时,得到 μ M L ( N − 1 ) \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N -1) } μML(N1),然后来了一个 x n \mathbf { x } _ { n } xn,则对其进行修正便可得到 μ M L ( N ) \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N ) } μML(N)。下面介绍一种更加普适的方法得到序列算法,Robbins-Monro algorithm
对于联合分布 p ( z , θ ) p ( z , \theta ) p(z,θ)
f ( θ ) ≡ E [ z ∣ θ ] = ∫ z p ( z ∣ θ ) d z f ( \theta ) \equiv \mathbb { E } [ z | \theta ] = \int z p ( z | \theta ) \mathrm { d } z f(θ)E[zθ]=zp(zθ)dz
这个函数称为回归函数。我们的目标是找到 θ ⋆ \theta ^ { \star } θ使得 f ( θ ⋆ ) = 0 f \left( \theta ^ { \star } \right) = 0 f(θ)=0。如果我们有很多关于 z , θ z , \theta z,θ的观测值,那么我们可以直接建模回归函数,这跟之前的回归问题很像,就可以得到目标值。但是我们现在只能观测到 z z z,且每次只能观测一个数据。我们可以使用Robbins-Monro algorithm得到序列估计的算法:
首先假设有
E [ ( z − f ) 2 ∣ θ ] &lt; ∞ \mathbb { E } \left[ ( z - f ) ^ { 2 } | \theta \right] &lt; \infty E[(zf)2θ]<
且认为,当 θ &gt; θ ⋆ \theta &gt; \theta ^ { \star } θ>θ f ( θ ) &gt; 0 f ( \theta ) &gt; 0 f(θ)>0 θ &lt; θ ⋆ \theta &lt; \theta ^ { \star } θ<θ f ( θ ) &lt; 0 f ( \theta ) &lt; 0 f(θ)<0,则更新过程为
θ ( N ) = θ ( N − 1 ) + a N − 1 z ( θ ( N − 1 ) ) \theta ^ { ( N ) } = \theta ^ { ( N - 1 ) } + a _ { N - 1 } z \left( \theta ^ { ( N - 1 ) } \right) θ(N)=θ(N1)+aN1z(θ(N1))
{ a N } \left\{ a _ { N } \right\} {aN}为一系列正数,且满足
lim ⁡ N → ∞ a N = 0 ∑ N = 1 ∞ a N = ∞ ∑ N = 1 ∞ a N 2 &lt; ∞ \begin{array} { l } { \lim _ { N \rightarrow \infty } a _ { N } = 0 } \\ { \sum _ { N = 1 } ^ { \infty } a _ { N } = \infty } \\ { \sum _ { N = 1 } ^ { \infty } a _ { N } ^ { 2 } &lt; \infty } \end{array} limNaN=0N=1aN=N=1aN2<
在实际过程中,可以在最大似然中使用以上算法
∂ ∂ θ { 1 N ∑ n = 1 N ln ⁡ p ( x n ∣ θ ) } ∣ θ M L = 0 \frac { \partial } { \partial \theta } \left. \left\{ \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \ln p \left( \mathbf { x } _ { n } | \theta \right) \right\} \right| _ { \theta _ { \mathrm { ML } } } = 0 θ{N1n=1Nlnp(xnθ)}θML=0
当对 N → ∞ N \rightarrow \infty N,有
lim ⁡ N → ∞ 1 N ∑ n = 1 N ∂ ∂ θ ln ⁡ p ( x n ∣ θ ) = E x [ ∂ ∂ θ ln ⁡ p ( x ∣ θ ) ] \lim _ { N \rightarrow \infty } \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \frac { \partial } { \partial \theta } \ln p \left( x _ { n } | \theta \right) = \mathbb { E } _ { x } \left[ \frac { \partial } { \partial \theta } \ln p ( x | \theta ) \right] NlimN1n=1Nθlnp(xnθ)=Ex[θlnp(xθ)]
也就是说求最大似然估计,就是求上式的根,因此采用以上所说的算法
θ ( N ) = θ ( N − 1 ) + a N − 1 ∂ ∂ θ ( N − 1 ) ln ⁡ p ( x N ∣ θ ( N − 1 ) ) \theta ^ { ( N ) } = \theta ^ { ( N - 1 ) } + a _ { N - 1 } \frac { \partial } { \partial \theta ^ { ( N - 1 ) } } \ln p \left( x _ { N } | \theta ^ { ( N - 1 ) } \right) θ(N)=θ(N1)+aN1θ(N1)lnp(xNθ(N1))
具体地,对于高斯分布来说
z = ∂ ∂ μ M L ln ⁡ p ( x ∣ μ M L , σ 2 ) = 1 σ 2 ( x − μ M L ) z = \frac { \partial } { \partial \mu _ { \mathrm { ML } } } \ln p \left( x | \mu _ { \mathrm { ML } } , \sigma ^ { 2 } \right) = \frac { 1 } { \sigma ^ { 2 } } \left( x - \mu _ { \mathrm { ML } } \right) z=μMLlnp(xμML,σ2)=σ21(xμML)
当取 a N = σ 2 / N a _ { N } = \sigma ^ { 2 } / N aN=σ2/N时,就得到了之前推出来的结果!

2.3.6 Bayesian inference for the Gaussian

接下来的问题就是在高斯分布参数上加入先验进而得到参数的后验分布:

1) 单变量高斯:方差已知

p ( X ∣ μ ) = ∏ n = 1 N p ( x n ∣ μ ) = 1 ( 2 π σ 2 ) N / 2 exp ⁡ { − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 } p ( \mathbf { X } | \mu ) = \prod _ { n = 1 } ^ { N } p \left( x _ { n } | \mu \right) = \frac { 1 } { \left( 2 \pi \sigma ^ { 2 } \right) ^ { N / 2 } } \exp \left\{ - \frac { 1 } { 2 \sigma ^ { 2 } } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu \right) ^ { 2 } \right\} p(Xμ)=n=1Np(xnμ)=(2πσ2)N/21exp{2σ21n=1N(xnμ)2}
μ \mu μ的先验设置为
p ( μ ) = N ( μ ∣ μ 0 , σ 0 2 ) p ( \mu ) = \mathcal { N } \left( \mu | \mu _ { 0 } , \sigma _ { 0 } ^ { 2 } \right) p(μ)=N(μμ0,σ02)

p ( μ ∣ X ) ∝ p ( X ∣ μ ) p ( μ ) p ( \mu | \mathbf { X } ) \propto p ( \mathbf { X } | \mu ) p ( \mu ) p(μX)p(Xμ)p(μ)
刚好也是一个高斯分布,
p ( μ ∣ X ) = N ( μ ∣ μ N , σ N 2 ) p ( \mu | \mathbf { X } ) = \mathcal { N } \left( \mu | \mu _ { N } , \sigma _ { N } ^ { 2 } \right) p(μX)=N(μμN,σN2)
μ N = σ 2 N σ 0 2 + σ 2 μ 0 + N σ 0 2 N σ 0 2 + σ 2 μ M L 1 σ N 2 = 1 σ 0 2 + N σ 2 \begin{aligned} \mu _ { N } &amp; = \frac { \sigma ^ { 2 } } { N \sigma _ { 0 } ^ { 2 } + \sigma ^ { 2 } } \mu _ { 0 } + \frac { N \sigma _ { 0 } ^ { 2 } } { N \sigma _ { 0 } ^ { 2 } + \sigma ^ { 2 } } \mu _ { \mathrm { ML } } \\ \frac { 1 } { \sigma _ { N } ^ { 2 } } &amp; = \frac { 1 } { \sigma _ { 0 } ^ { 2 } } + \frac { N } { \sigma ^ { 2 } } \end{aligned} μNσN21=Nσ02+σ2σ2μ0+Nσ02+σ2Nσ02μML=σ021+σ2N

2) 单变量高斯:均值已知

p ( X ∣ λ ) = ∏ n = 1 N N ( x n ∣ μ , λ − 1 ) ∝ λ N / 2 exp ⁡ { − λ 2 ∑ n = 1 N ( x n − μ ) 2 } p ( \mathbf { X } | \lambda ) = \prod _ { n = 1 } ^ { N } \mathcal { N } \left( x _ { n } | \mu , \lambda ^ { - 1 } \right) \propto \lambda ^ { N / 2 } \exp \left\{ - \frac { \lambda } { 2 } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu \right) ^ { 2 } \right\} p(Xλ)=n=1NN(xnμ,λ1)λN/2exp{2λn=1N(xnμ)2}
其先验分布为Gamma分布的时候
Gam ⁡ ( λ ∣ a , b ) = 1 Γ ( a ) b a λ a − 1 exp ⁡ ( − b λ ) \operatorname { Gam } ( \lambda | a , b ) = \frac { 1 } { \Gamma ( a ) } b ^ { a } \lambda ^ { a - 1 } \exp ( - b \lambda ) Gam(λa,b)=Γ(a)1baλa1exp(bλ)
E [ λ ] = a b var ⁡ [ λ ] = a b 2 \begin{aligned} \mathbb { E } [ \lambda ] &amp; = \frac { a } { b } \\ \operatorname { var } [ \lambda ] &amp; = \frac { a } { b ^ { 2 } } \end{aligned} E[λ]var[λ]=ba=b2a
当该先验为 Gam ⁡ ( λ ∣ a 0 , b 0 ) \operatorname { Gam } \left( \lambda | a _ { 0 } , b _ { 0 } \right) Gam(λa0,b0),则
p ( λ ∣ X ) ∝ λ a 0 − 1 λ N / 2 exp ⁡ { − b 0 λ − λ 2 ∑ n = 1 N ( x n − μ ) 2 } p ( \lambda | \mathbf { X } ) \propto \lambda ^ { a _ { 0 } - 1 } \lambda ^ { N / 2 } \exp \left\{ - b _ { 0 } \lambda - \frac { \lambda } { 2 } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu \right) ^ { 2 } \right\} p(λX)λa01λN/2exp{b0λ2λn=1N(xnμ)2}
刚好表示为另一个Gamma分布 Gam ⁡ ( λ ∣ a N , b N ) \operatorname { Gam } \left( \lambda | a _ { N } , b _ { N } \right) Gam(λaN,bN)
a N = a 0 + N 2 b N = b 0 + 1 2 ∑ n = 1 N ( x n − μ ) 2 = b 0 + N 2 σ M L 2 \begin{array} { l } { a _ { N } = a _ { 0 } + \frac { N } { 2 } } \\ { b _ { N } = b _ { 0 } + \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu \right) ^ { 2 } = b _ { 0 } + \frac { N } { 2 } \sigma _ { \mathrm { ML } } ^ { 2 } } \end{array} aN=a0+2NbN=b0+21n=1N(xnμ)2=b0+2NσML2

3) 单变量高斯:均值和方差都未知

p ( X ∣ μ , λ ) = ∏ n = 1 N ( λ 2 π ) 1 / 2 exp ⁡ { − λ 2 ( x n − μ ) 2 } ∝ [ λ 1 / 2 exp ⁡ ( − λ μ 2 2 ) ] N exp ⁡ { λ μ ∑ n = 1 N x n − λ 2 ∑ n = 1 N x n 2 } \begin{array} { c } { p ( \mathbf { X } | \mu , \lambda ) = \prod _ { n = 1 } ^ { N } \left( \frac { \lambda } { 2 \pi } \right) ^ { 1 / 2 } \exp \left\{ - \frac { \lambda } { 2 } \left( x _ { n } - \mu \right) ^ { 2 } \right\} } \\ { \propto \left[ \lambda ^ { 1 / 2 } \exp \left( - \frac { \lambda \mu ^ { 2 } } { 2 } \right) \right] ^ { N } \exp \left\{ \lambda \mu \sum _ { n = 1 } ^ { N } x _ { n } - \frac { \lambda } { 2 } \sum _ { n = 1 } ^ { N } x _ { n } ^ { 2 } \right\} } \end{array} p(Xμ,λ)=n=1N(2πλ)1/2exp{2λ(xnμ)2}[λ1/2exp(2λμ2)]Nexp{λμn=1Nxn2λn=1Nxn2}
当先验满足以下形式时就会形成共轭分布
p ( μ , λ ) ∝ [ λ 1 / 2 exp ⁡ ( − λ μ 2 2 ) ] β exp ⁡ { c λ μ − d λ } = exp ⁡ { − β λ 2 ( μ − c / β ) 2 } λ β / 2 exp ⁡ { − ( d − c 2 2 β ) λ } \begin{array} { l } { p ( \mu , \lambda ) \propto \left[ \lambda ^ { 1 / 2 } \exp \left( - \frac { \lambda \mu ^ { 2 } } { 2 } \right) \right] ^ { \beta } \exp \{ c \lambda \mu - d \lambda \} } \\ { \quad = \exp \left\{ - \frac { \beta \lambda } { 2 } ( \mu - c / \beta ) ^ { 2 } \right\} \lambda ^ { \beta / 2 } \exp \left\{ - \left( d - \frac { c ^ { 2 } } { 2 \beta } \right) \lambda \right\} } \end{array} p(μ,λ)[λ1/2exp(2λμ2)]βexp{cλμdλ}=exp{2βλ(μc/β)2}λβ/2exp{(d2βc2)λ}
其中 c , d , β c,d,\beta c,d,β为常数。实际中我们常常 p ( μ , λ ) = p ( μ ∣ λ ) p ( λ ) p ( \mu , \lambda ) = p ( \mu | \lambda ) p ( \lambda ) p(μ,λ)=p(μλ)p(λ),那么可以将 p ( μ ∣ λ ) p ( \mu | \lambda ) p(μλ)看作为一个高斯分布,则
p ( μ , λ ) = N ( μ ∣ μ 0 , ( β λ ) − 1 ) Gam ⁡ ( λ ∣ a , b ) p ( \mu , \lambda ) = \mathcal { N } \left( \mu | \mu _ { 0 } , ( \beta \lambda ) ^ { - 1 } \right) \operatorname { Gam } ( \lambda | a , b ) p(μ,λ)=N(μμ0,(βλ)1)Gam(λa,b)
以上这个分布称为normal-gamma or Gaussian-gamma分布。

4) 多元变量高斯

在多元高斯的情况下与单高斯类似,均值用高斯分布作为先验,而precision矩阵由Wishart分布作为先验
W ( Λ ∣ W , ν ) = B ∣ Λ ∣ ( ν − D − 1 ) / 2 exp ⁡ ( − 1 2 Tr ⁡ ( W − 1 Λ ) ) \mathcal { W } ( \mathbf { \Lambda } | \mathbf { W } , \nu ) = B | \mathbf { \Lambda } | ^ { ( \nu - D - 1 ) / 2 } \exp \left( - \frac { 1 } { 2 } \operatorname { Tr } \left( \mathbf { W } ^ { - 1 } \mathbf { \Lambda } \right) \right) W(ΛW,ν)=BΛ(νD1)/2exp(21Tr(W1Λ))
常数 B B B
B ( W , ν ) = ∣ W ∣ − ν / 2 ( 2 ν D / 2 π D ( D − 1 ) / 4 ∏ i = 1 D Γ ( ν + 1 − i 2 ) ) − 1 B ( \mathbf { W } , \nu ) = | \mathbf { W } | ^ { - \nu / 2 } \left( 2 ^ { \nu D / 2 } \pi ^ { D ( D - 1 ) / 4 } \prod _ { i = 1 } ^ { D } \Gamma \left( \frac { \nu + 1 - i } { 2 } \right) \right) ^ { - 1 } B(W,ν)=Wν/2(2νD/2πD(D1)/4i=1DΓ(2ν+1i))1
同样的,在均值和precision矩阵都不知道的情况下
p ( μ , Λ ∣ μ 0 , β , W , ν ) = N ( μ ∣ μ 0 , ( β Λ ) − 1 ) W ( Λ ∣ W , ν ) p \left( \boldsymbol { \mu } , \boldsymbol { \Lambda } | \boldsymbol { \mu } _ { 0 } , \beta , \mathbf { W } , \nu \right) = \mathcal { N } \left( \boldsymbol { \mu } | \boldsymbol { \mu } _ { 0 } , ( \beta \boldsymbol { \Lambda } ) ^ { - 1 } \right) \mathcal { W } ( \boldsymbol { \Lambda } | \mathbf { W } , \nu ) p(μ,Λμ0,β,W,ν)=N(μμ0,(βΛ)1)W(ΛW,ν)

2.3.7 Student’s t-distribution

把高斯分布和Gamma分布的联合分布的precision积掉
p ( x ∣ μ , a , b ) = ∫ 0 ∞ N ( x ∣ μ , τ − 1 ) Gam ⁡ ( τ ∣ a , b ) d τ = ∫ 0 ∞ b a e ( − b τ ) τ a − 1 Γ ( a ) ( τ 2 π ) 1 / 2 exp ⁡ { − τ 2 ( x − μ ) 2 } d τ = b a Γ ( a ) ( 1 2 π ) 1 / 2 [ b + ( x − μ ) 2 2 ] − a − 1 / 2 Γ ( a + 1 / 2 ) \begin{aligned} p ( x | \mu , a , b ) &amp; = \int _ { 0 } ^ { \infty } \mathcal { N } \left( x | \mu , \tau ^ { - 1 } \right) \operatorname { Gam } ( \tau | a , b ) \mathrm { d } \tau \\ &amp; = \int _ { 0 } ^ { \infty } \frac { b ^ { a } e ^ { ( - b \tau ) } \tau ^ { a - 1 } } { \Gamma ( a ) } \left( \frac { \tau } { 2 \pi } \right) ^ { 1 / 2 } \exp \left\{ - \frac { \tau } { 2 } ( x - \mu ) ^ { 2 } \right\} \mathrm { d } \tau \\ &amp; = \frac { b ^ { a } } { \Gamma ( a ) } \left( \frac { 1 } { 2 \pi } \right) ^ { 1 / 2 } \left[ b + \frac { ( x - \mu ) ^ { 2 } } { 2 } \right] ^ { - a - 1 / 2 } \Gamma ( a + 1 / 2 ) \end{aligned} p(xμ,a,b)=0N(xμ,τ1)Gam(τa,b)dτ=0Γ(a)bae(bτ)τa1(2πτ)1/2exp{2τ(xμ)2}dτ=Γ(a)ba(2π1)1/2[b+2(xμ)2]a1/2Γ(a+1/2)
z = τ [ b + ( x − μ ) 2 / 2 ] z = \tau \left[ b + ( x - \mu ) ^ { 2 } / 2 \right] z=τ[b+(xμ)2/2] ν = 2 a \nu = 2 a ν=2a λ = a / b \lambda = a / b λ=a/b,可以得到最终的strudent’s t-distribution
St ⁡ ( x ∣ μ , λ , ν ) = Γ ( ν / 2 + 1 / 2 ) Γ ( ν / 2 ) ( λ π ν ) 1 / 2 [ 1 + λ ( x − μ ) 2 ν ] − ν / 2 − 1 / 2 \operatorname { St } ( x | \mu , \lambda , \nu ) = \frac { \Gamma ( \nu / 2 + 1 / 2 ) } { \Gamma ( \nu / 2 ) } \left( \frac { \lambda } { \pi \nu } \right) ^ { 1 / 2 } \left[ 1 + \frac { \lambda ( x - \mu ) ^ { 2 } } { \nu } \right] ^ { - \nu / 2 - 1 / 2 } St(xμ,λ,ν)=Γ(ν/2)Γ(ν/2+1/2)(πνλ)1/2[1+νλ(xμ)2]ν/21/2
t分布是由无限多个均值相同precision不同的高斯分布混合而成!
在这里插入图片描述
ν → ∞ \nu \rightarrow \infty ν时,t分布就变成了高斯分布。从图中可以发现t分布的“尾巴”要更长些,这样就给t分布带来了一个好处就是“鲁棒性”,主要是对外点的鲁棒性更强,具体看如下结果
在这里插入图片描述
可以看出高斯分布很容易受到外点的影响,而t分布则能很好地消除外点,得到较好的结果。
t分布可以表示( ν = 2 a \nu = 2 a ν=2a λ = a / b \lambda=a/b λ=a/b η = τ b / a \eta = \tau b / a η=τb/a)为
St ⁡ ( x ∣ μ , λ , ν ) = ∫ 0 ∞ N ( x ∣ μ , ( η λ ) − 1 ) Gam ⁡ ( η ∣ ν / 2 , ν / 2 ) d η \operatorname { St } ( x | \mu , \lambda , \nu ) = \int _ { 0 } ^ { \infty } \mathcal { N } \left( x | \mu , ( \eta \lambda ) ^ { - 1 } \right) \operatorname { Gam } ( \eta | \nu / 2 , \nu / 2 ) \mathrm { d } \eta St(xμ,λ,ν)=0N(xμ,(ηλ)1)Gam(ην/2,ν/2)dη
那么可以类似地往多维高斯扩展
St ⁡ ( x ∣ μ , Λ , ν ) = ∫ 0 ∞ N ( x ∣ μ , ( η Λ ) − 1 ) Gam ⁡ ( η ∣ ν / 2 , ν / 2 ) d η \operatorname { St } ( \mathbf { x } | \boldsymbol { \mu } , \boldsymbol { \Lambda } , \nu ) = \int _ { 0 } ^ { \infty } \mathcal { N } \left( \mathbf { x } | \boldsymbol { \mu } , ( \eta \boldsymbol { \Lambda } ) ^ { - 1 } \right) \operatorname { Gam } ( \eta | \nu / 2 , \nu / 2 ) \mathrm { d } \eta St(xμ,Λ,ν)=0N(xμ,(ηΛ)1)Gam(ην/2,ν/2)dη
最终得到
St ⁡ ( x ∣ μ , Λ , ν ) = Γ ( D / 2 + ν / 2 ) Γ ( ν / 2 ) ∣ Λ ∣ 1 / 2 ( π ν ) D / 2 [ 1 + Δ 2 ν ] − D / 2 − ν / 2 \operatorname { St } ( \mathbf { x } | \boldsymbol { \mu } , \boldsymbol { \Lambda } , \nu ) = \frac { \Gamma ( D / 2 + \nu / 2 ) } { \Gamma ( \nu / 2 ) } \frac { | \mathbf { \Lambda } | ^ { 1 / 2 } } { ( \pi \nu ) ^ { D / 2 } } \left[ 1 + \frac { \Delta ^ { 2 } } { \nu } \right] ^ { - D / 2 - \nu / 2 } St(xμ,Λ,ν)=Γ(ν/2)Γ(D/2+ν/2)(πν)D/2Λ1/2[1+νΔ2]D/2ν/2
Δ 2 = ( x − μ ) T Λ ( x − μ ) \Delta ^ { 2 } = ( \mathbf { x } - \boldsymbol { \mu } ) ^ { \mathrm { T } } \boldsymbol { \Lambda } ( \mathbf { x } - \boldsymbol { \mu } ) Δ2=(xμ)TΛ(xμ)
E [ x ] = μ ,  if  ν &gt; 1 cov ⁡ [ x ] = ν ( ν − 2 ) Λ − 1  if  ν &gt; 2 mode ⁡ [ x ] = μ \begin{array} { r l r l } { \mathbb { E } [ \mathbf { x } ] } &amp; { = } { \mu } &amp;, { \text { if } \quad \nu &gt; 1 } \\ { \operatorname { cov } [ \mathbf { x } ] } &amp; { = \frac { \nu } { ( \nu - 2 ) } \Lambda ^ { - 1 } } &amp; { } &amp; { \text { if } } &amp; { \nu &gt; 2 } \\ { \operatorname { mode } [ \mathbf { x } ] } &amp; { = \mu } \end{array} E[x]cov[x]mode[x]=μ=(ν2)νΛ1=μ, if ν>1 if ν>2

2.3.8 Periodic variables

尽管高斯分布应用范围很广,但是在有些情况下,高斯分布就达不到预期效果,比如周期性变量!比如风向标的方向, 0 ⩽ θ &lt; 2 π 0 \leqslant \theta &lt; 2 \pi 0θ<2π
假如我们还是按照原来高斯分布来建模这个变量,对于观测值 θ 1 = 1 ∘ \theta _ { 1 } = 1 ^ { \circ } θ1=1 θ 2 = 35 9 ∘ \theta _ { 2 } = 359 ^ { \circ } θ2=359,如果我们要计算样本均值和方差,当选择 0 ∘ 0 ^ { \circ } 0作为起始点,那么得到均值为 18 0 ∘ 180 ^ { \circ } 180,标准差为 17 9 ∘ 179 ^ { \circ } 179;若选择 18 0 ∘ 180 ^ { \circ } 180作为起始点的话,均值就变成了 0 ∘ 0 ^ { \circ } 0,标准差为 1 ∘ 1 ^ { \circ } 1。显然这样的方式建模与选择的起始点有关,这样是不合适的!
现在考虑周期性变量 D = { θ 1 , … , θ N } \mathcal { D } = \left\{ \theta _ { 1 } , \ldots , \theta _ { N } \right\} D={θ1,,θN},显然直接计算 ( θ 1 + ⋯ + θ N ) / N \left( \theta _ { 1 } + \cdots + \theta _ { N } \right) / N (θ1++θN)/N将会很依赖坐标的选择。因此我们可以把这个周期性的变量建模为二维单位变量 x 1 , … , x N \mathbf { x } _ { 1 } , \dots , \mathbf { x } _ { N } x1,,xN ∥ x n ∥ = 1 \left\| \mathbf { x } _ { n } \right\| = 1 xn=1
在这里插入图片描述
x ‾ = 1 N ∑ n = 1 N x n \overline { \mathbf { x } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \mathbf { x } _ { n } x=N1n=1Nxn
这样找到的均值位置点就与初始点角度无关,在笛卡尔坐标系下, x n = ( cos ⁡ θ n , sin ⁡ θ n ) \mathbf { x } _ { n } = \left( \cos \theta _ { n } , \sin \theta _ { n } \right) xn=(cosθn,sinθn),那么可以进一步定义 x ‾ = ( r ‾ cos ⁡ θ ‾ , r ‾ sin ⁡ θ ‾ ) \overline { \mathbf { x } } = ( \overline { r } \cos \overline { \theta } , \overline { r } \sin \overline { \theta } ) x=(rcosθ,rsinθ),可以得到
θ ‾ = tan ⁡ − 1 { ∑ n sin ⁡ θ n ∑ n cos ⁡ θ n } \overline { \theta } = \tan ^ { - 1 } \left\{ \frac { \sum _ { n } \sin \theta _ { n } } { \sum _ { n } \cos \theta _ { n } } \right\} θ=tan1{ncosθnnsinθn}
我们稍后会看到,对于周期变量,如果恰当定义⼀个概率分布,最⼤似然⽅法可以很⾃然地得出这个结果。
我们现在考虑⾼斯分布对于周期变量的⼀个推⼴:von Mises分布,这个分布必须满足一下条件:
p ( θ ) ⩾ 0 p ( θ ) d θ = 1 p ( θ + 2 π ) = p ( θ ) \begin{aligned} p ( \theta ) &amp; \geqslant 0 \\ p ( \theta ) \mathrm { d } \theta &amp; = 1 \\ p ( \theta + 2 \pi ) &amp; = p ( \theta ) \end{aligned} p(θ)p(θ)dθp(θ+2π)0=1=p(θ)
其中 p ( θ + M 2 π ) = p ( θ ) p ( \theta + M 2 \pi ) = p ( \theta ) p(θ+M2π)=p(θ) for any integer M M M
首先考虑一个二元高斯分布
p ( x 1 , x 2 ) = 1 2 π σ 2 exp ⁡ { − ( x 1 − μ 1 ) 2 + ( x 2 − μ 2 ) 2 2 σ 2 } p \left( x _ { 1 } , x _ { 2 } \right) = \frac { 1 } { 2 \pi \sigma ^ { 2 } } \exp \left\{ - \frac { \left( x _ { 1 } - \mu _ { 1 } \right) ^ { 2 } + \left( x _ { 2 } - \mu _ { 2 } \right) ^ { 2 } } { 2 \sigma ^ { 2 } } \right\} p(x1,x2)=2πσ21exp{2σ2(x1μ1)2+(x2μ2)2}
显然它的常数轮廓为圆形,通过一下构造可以使其具有周期性,可能并未归一化
x 1 = r cos ⁡ θ , x 2 = r sin ⁡ θ x _ { 1 } = r \cos \theta , \quad x _ { 2 } = r \sin \theta x1=rcosθ,x2=rsinθ
μ 1 = r 0 cos ⁡ θ 0 , μ 2 = r 0 sin ⁡ θ 0 \mu _ { 1 } = r _ { 0 } \cos \theta _ { 0 } , \qquad \mu _ { 2 } = r _ { 0 } \sin \theta _ { 0 } μ1=r0cosθ0,μ2=r0sinθ0
我们仅仅考虑 r = 1 r=1 r=1的圆,且看高斯分布的指数部分
− 1 2 σ 2 { ( r cos ⁡ θ − r 0 cos ⁡ θ 0 ) 2 + ( r sin ⁡ θ − r 0 sin ⁡ θ 0 ) 2 } = − 1 2 σ 2 { 1 + r 0 2 − 2 r 0 cos ⁡ θ cos ⁡ θ 0 − 2 r 0 sin ⁡ θ sin ⁡ θ 0 } = r 0 σ 2 cos ⁡ ( θ − θ 0 ) + c o n s t \begin{array} { l } { - \frac { 1 } { 2 \sigma ^ { 2 } } \left\{ \left( r \cos \theta - r _ { 0 } \cos \theta _ { 0 } \right) ^ { 2 } + \left( r \sin \theta - r _ { 0 } \sin \theta _ { 0 } \right) ^ { 2 } \right\} } \\ { \quad = - \frac { 1 } { 2 \sigma ^ { 2 } } \left\{ 1 + r _ { 0 } ^ { 2 } - 2 r _ { 0 } \cos \theta \cos \theta _ { 0 } - 2 r _ { 0 } \sin \theta \sin \theta _ { 0 } \right\} } \\ { \quad = \frac { r _ { 0 } } { \sigma ^ { 2 } } \cos \left( \theta - \theta _ { 0 } \right) + \mathrm { const } } \end{array} 2σ21{(rcosθr0cosθ0)2+(rsinθr0sinθ0)2}=2σ21{1+r022r0cosθcosθ02r0sinθsinθ0}=σ2r0cos(θθ0)+const
m = r 0 / σ 2 m = r _ { 0 } / \sigma ^ { 2 } m=r0/σ2
p ( θ ∣ θ 0 , m ) = 1 ∣ 2 π I 0 ( m ) exp ⁡ { m cos ⁡ ( θ − θ 0 ) } p \left( \theta | \theta _ { 0 } , m \right) = \frac { 1 | } { 2 \pi I _ { 0 } ( m ) } \exp \left\{ m \cos \left( \theta - \theta _ { 0 } \right) \right\} p(θθ0,m)=2πI0(m)1exp{mcos(θθ0)}
以上就被称为von Mises distribution,
I 0 ( m ) = 1 2 π ∫ 0 2 π exp ⁡ { m cos ⁡ θ } d θ I _ { 0 } ( m ) = \frac { 1 } { 2 \pi } \int _ { 0 } ^ { 2 \pi } \exp \{ m \cos \theta \} \mathrm { d } \theta I0(m)=2π102πexp{mcosθ}dθ
在这里插入图片描述
m m m较大的时候,近似为高斯分布!下面开始考虑这个分布对参数 m , θ 0 m,\theta_0 m,θ0的MLE,对数似然函数为
ln ⁡ p ( D ∣ θ 0 , m ) = − N ln ⁡ ( 2 π ) − N ln ⁡ I 0 ( m ) + m ∑ n = 1 N cos ⁡ ( θ n − θ 0 ) \ln p \left( \mathcal { D } | \theta _ { 0 } , m \right) = - N \ln ( 2 \pi ) - N \ln I _ { 0 } ( m ) + m \sum _ { n = 1 } ^ { N } \cos \left( \theta _ { n } - \theta _ { 0 } \right) lnp(Dθ0,m)=Nln(2π)NlnI0(m)+mn=1Ncos(θnθ0)
经过推导可以得到
θ 0 M L = tan ⁡ − 1 { ∑ n sin ⁡ θ n ∑ n cos ⁡ θ n } \theta _ { 0 } ^ { \mathrm { ML } } = \tan ^ { - 1 } \left\{ \frac { \sum _ { n } \sin \theta _ { n } } { \sum _ { n } \cos \theta _ { n } } \right\} θ0ML=tan1{ncosθnnsinθn}
跟之前得到的结果一致。对于 m m m的估计就比较复杂,这里给出结果
A ( m ) = 1 N ∑ n = 1 N cos ⁡ ( θ n − θ 0 M L ) A ( m ) = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \cos \left( \theta _ { n } - \theta _ { 0 } ^ { \mathrm { ML } } \right) A(m)=N1n=1Ncos(θnθ0ML)
A ( m M L ) = ( 1 N ∑ n = 1 N cos ⁡ θ n ) cos ⁡ θ 0 M L − ( 1 N ∑ n = 1 N sin ⁡ θ n ) sin ⁡ θ 0 M L A \left( m _ { \mathrm { ML } } \right) = \left( \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \cos \theta _ { n } \right) \cos \theta _ { 0 } ^ { \mathrm { ML } } - \left( \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \sin \theta _ { n } \right) \sin \theta _ { 0 } ^ { \mathrm { ML } } A(mML)=(N1n=1Ncosθn)cosθ0ML(N1n=1Nsinθn)sinθ0ML

2.3.9 Mixtures of Gaussians

尽管高斯分布有着很多很好的特性,但是高斯分布仅仅为单峰分布,有些多模态的分布它并不能很好的拟合
在这里插入图片描述
但是高斯混合分布就能很好地解决这个
p ( x ) = ∑ k = 1 K π k N ( x ∣ μ k , Σ k ) p ( \mathbf { x } ) = \sum _ { k = 1 } ^ { K } \pi _ { k } \mathcal { N } \left( \mathbf { x } | \boldsymbol { \mu } _ { k } , \boldsymbol { \Sigma } _ { k } \right) p(x)=k=1KπkN(xμk,Σk)
∑ k = 1 K π k = 1 \sum _ { k = 1 } ^ { K } \pi _ { k } = 1 k=1Kπk=1
在这里插入图片描述
可以令 π k = p ( k ) \pi _ { k } = p ( k ) πk=p(k),那么这个可以看作为类别的先验
p ( x ) = ∑ k = 1 K p ( k ) p ( x ∣ k ) p ( \mathbf { x } ) = \sum _ { k = 1 } ^ { K } p ( k ) p ( \mathbf { x } | k ) p(x)=k=1Kp(k)p(xk)
根据贝叶斯公式,可以得到后验概率
γ k ( x ) ≡ p ( k ∣ x ) = p ( k ) p ( x ∣ k ) ∑ l p ( l ) p ( x ∣ l ) = π k N ( x ∣ μ k , Σ k ) ∑ l π l N ( x ∣ μ l , Σ l ) \begin{aligned} \gamma _ { k } ( \mathbf { x } ) &amp; \equiv p ( k | \mathbf { x } ) \\ &amp; = \frac { p ( k ) p ( \mathbf { x } | k ) } { \sum _ { l } p ( l ) p ( \mathbf { x } | l ) } \\ &amp; = \frac { \pi _ { k } \mathcal { N } \left( \mathbf { x } | \boldsymbol { \mu } _ { k } , \boldsymbol { \Sigma } _ { k } \right) } { \sum _ { l } \pi _ { l } \mathcal { N } \left( \mathbf { x } | \boldsymbol { \mu } _ { l } , \boldsymbol { \Sigma } _ { l } \right) } \end{aligned} γk(x)p(kx)=lp(l)p(xl)p(k)p(xk)=lπlN(xμl,Σl)πkN(xμk,Σk)
对于高斯混合模型的MLE后续将会介绍使用EM算法求得。

2.4 The Exponential Family

指数族分布的形式统一为 p ( x ∣ η ) = h ( x ) g ( η ) exp ⁡ { η T u ( x ) } p ( \mathbf { x } | \boldsymbol { \eta } ) = h ( \mathbf { x } ) g ( \boldsymbol { \eta } ) \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { u } ( \mathbf { x } ) \right\} p(xη)=h(x)g(η)exp{ηTu(x)}
其中 η \boldsymbol { \eta } η为natural parameters。按照分布的积分为1的原则
g ( η ) ∫ h ( x ) exp ⁡ { η T u ( x ) } d x = 1 g ( \boldsymbol { \eta } ) \int h ( \mathbf { x } ) \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { u } ( \mathbf { x } ) \right\} \mathrm { d } \mathbf { x } = 1 g(η)h(x)exp{ηTu(x)}dx=1
下面具体介绍几个可以化成指数族分布的分布

1) Bernoulli distribution

p ( x ∣ μ ) = Bern ⁡ ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x p ( x | \mu ) = \operatorname { Bern } ( x | \mu ) = \mu ^ { x } ( 1 - \mu ) ^ { 1 - x } p(xμ)=Bern(xμ)=μx(1μ)1x p ( x ∣ μ ) = exp ⁡ { x ln ⁡ μ + ( 1 − x ) ln ⁡ ( 1 − μ ) } = ( 1 − μ ) exp ⁡ { ln ⁡ ( μ 1 − μ ) x } \begin{aligned} p ( x | \mu ) &amp; = \exp \{ x \ln \mu + ( 1 - x ) \ln ( 1 - \mu ) \} \\ &amp; = ( 1 - \mu ) \exp \left\{ \ln \left( \frac { \mu } { 1 - \mu } \right) x \right\} \end{aligned} p(xμ)=exp{xlnμ+(1x)ln(1μ)}=(1μ)exp{ln(1μμ)x} η = ln ⁡ ( μ 1 − μ ) \eta = \ln \left( \frac { \mu } { 1 - \mu } \right) η=ln(1μμ) σ ( η ) = 1 1 + exp ⁡ ( − η ) \sigma ( \eta ) = \frac { 1 } { 1 + \exp ( - \eta ) } σ(η)=1+exp(η)1 p ( x ∣ η ) = σ ( − η ) exp ⁡ ( η x ) p ( x | \eta ) = \sigma ( - \eta ) \exp ( \eta x ) p(xη)=σ(η)exp(ηx) u ( x ) ∣ = x h ( x ) = 1 g ( η ) = σ ( − η ) \begin{aligned} u ( x ) | &amp; = x \\ h ( x ) &amp; = 1 \\ g ( \eta ) &amp; = \sigma ( - \eta ) \end{aligned} u(x)h(x)g(η)=x=1=σ(η)

2) multinomial distribution

p ( x ∣ μ ) = ∏ k = 1 M μ k x k = exp ⁡ { ∑ k = 1 M x k ln ⁡ μ k } p ( \mathbf { x } | \boldsymbol { \mu } ) = \prod _ { k = 1 } ^ { M } \mu _ { k } ^ { x _ { k } } = \exp \left\{ \sum _ { k = 1 } ^ { M } x _ { k } \ln \mu _ { k } \right\} p(xμ)=k=1Mμkxk=exp{k=1Mxklnμk} p ( x ∣ η ) = exp ⁡ ( η T x ) p ( \mathbf { x } | \boldsymbol { \eta } ) = \exp \left( \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { x } \right) p(xη)=exp(ηTx)
其中 η k = ln ⁡ μ k \eta _ { k } = \ln \mu _ { k } ηk=lnμk
u ( x ) = x h ( x ) = 1 g ( η ) = 1 \begin{aligned} \mathbf { u } ( \mathbf { x } ) &amp; = \mathbf { x } \\ h ( \mathbf { x } ) &amp; = 1 \\ g ( \boldsymbol { \eta } ) &amp; = 1 \end{aligned} u(x)h(x)g(η)=x=1=1
需要说明的是, μ k \mu_k μk并不是独立的,而是满足
∑ k = 1 M μ k = 1 \sum _ { k = 1 } ^ { M } \mu _ { k } = 1 k=1Mμk=1
也就是说在之前其中 M − 1 M-1 M1个值后,便可通过这个约束得到最后的值。为了简化参数量,并利用这个约束关系,我们可以只用 M − 1 M-1 M1个参数,且它们仍要满足
0 ⩽ μ k ⩽ 1 , ∑ k = 1 M − 1 μ k ⩽ 1 0 \leqslant \mu _ { k } \leqslant 1 , \quad \sum _ { k = 1 } ^ { M - 1 } \mu _ { k } \leqslant 1 0μk1,k=1M1μk1
exp ⁡ { ∑ k = 1 M x k ln ⁡ μ k } = exp ⁡ { ∑ k = 1 M − 1 x k ln ⁡ μ k + ( 1 − ∑ k = 1 M − 1 x k ) ln ⁡ ( 1 − ∑ k = 1 M − 1 μ k ) } = exp ⁡ { ∑ k = 1 M − 1 x k ln ⁡ ( μ k 1 − ∑ j = 1 M − 1 μ j ) + ln ⁡ ( 1 − ∑ k = 1 M − 1 μ k ) } \begin{aligned} \exp \left\{ \sum _ { k = 1 } ^ { M } x _ { k } \ln \mu _ { k } \right\} \\ &amp; = \exp \left\{ \sum _ { k = 1 } ^ { M - 1 } x _ { k } \ln \mu _ { k } + \left( 1 - \sum _ { k = 1 } ^ { M - 1 } x _ { k } \right) \ln \left( 1 - \sum _ { k = 1 } ^ { M - 1 } \mu _ { k } \right) \right\} \\ &amp; = \exp \left\{ \sum _ { k = 1 } ^ { M - 1 } x _ { k } \ln \left( \frac { \mu _ { k } } { 1 - \sum _ { j = 1 } ^ { M - 1 } \mu _ { j } } \right) + \ln \left( 1 - \sum _ { k = 1 } ^ { M - 1 } \mu _ { k } \right) \right\} \end{aligned} exp{k=1Mxklnμk}=exp{k=1M1xklnμk+(1k=1M1xk)ln(1k=1M1μk)}=exp{k=1M1xkln(1j=1M1μjμk)+ln(1k=1M1μk)} ln ⁡ ( μ k 1 − ∑ j μ j ) = η k \ln \left( \frac { \mu _ { k } } { 1 - \sum _ { j } \mu _ { j } } \right) = \eta _ { k } ln(1jμjμk)=ηk μ k = exp ⁡ ( η k ) 1 + ∑ j exp ⁡ ( η j ) \mu _ { k } = \frac { \exp \left( \eta _ { k } \right) } { 1 + \sum _ { j } \exp \left( \eta _ { j } \right) } μk=1+jexp(ηj)exp(ηk)所以 p ( x ∣ η ) = ( 1 + ∑ k = 1 M − 1 exp ⁡ ( η k ) ) − 1 exp ⁡ ( η T x ) p ( \mathbf { x } | \boldsymbol { \eta } ) = \left( 1 + \sum _ { k = 1 } ^ { M - 1 } \exp \left( \eta _ { k } \right) \right) ^ { - 1 } \exp \left( \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { x } \right) p(xη)=(1+k=1M1exp(ηk))1exp(ηTx) u ( x ) = x h ( x ) = 1 g ( η ) = ( 1 + ∑ M − 1 exp ⁡ ( η k ) ) − 1 \begin{aligned} \mathbf { u } ( \mathbf { x } ) &amp; = \mathbf { x } \\ h ( \mathbf { x } ) &amp; = 1 \\ g ( \boldsymbol { \eta } ) &amp; = \left( 1 + \sum ^ { M - 1 } \exp \left( \eta _ { k } \right) \right) ^ { - 1 } \end{aligned} u(x)h(x)g(η)=x=1=(1+M1exp(ηk))1

3) Gaussian distribution

p ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 exp ⁡ { − 1 2 σ 2 ( x − μ ) 2 } = 1 ( 2 π σ 2 ) 1 / 2 exp ⁡ { − 1 2 σ 2 x 2 + μ σ 2 x − 1 2 σ 2 μ 2 } \begin{aligned} p \left( x | \mu , \sigma ^ { 2 } \right) &amp; = \frac { 1 } { \left( 2 \pi \sigma ^ { 2 } \right) ^ { 1 / 2 } } \exp \left\{ - \frac { 1 } { 2 \sigma ^ { 2 } } ( x - \mu ) ^ { 2 } \right\} \\ &amp; = \frac { 1 } { \left( 2 \pi \sigma ^ { 2 } \right) ^ { 1 / 2 } } \exp \left\{ - \frac { 1 } { 2 \sigma ^ { 2 } } x ^ { 2 } + \frac { \mu } { \sigma ^ { 2 } } x - \frac { 1 } { 2 \sigma ^ { 2 } } \mu ^ { 2 } \right\} \end{aligned} p(xμ,σ2)=(2πσ2)1/21exp{2σ21(xμ)2}=(2πσ2)1/21exp{2σ21x2+σ2μx2σ21μ2} η = ( μ / σ 2 − 1 / 2 σ 2 ) u ( x ) = ( x x 2 ) h ( x ) = ( 2 π ) − 1 / 2 g ( η ) = ( − 2 η 2 ) 1 / 2 exp ⁡ ( η 1 2 4 η 2 ) \begin{aligned} \boldsymbol { \eta } &amp; = \left( \begin{array} { c } { \mu / \sigma ^ { 2 } } \\ { - 1 / 2 \sigma ^ { 2 } } \end{array} \right) \\ \mathbf { u } ( x ) &amp; = \left( \begin{array} { c } { x } \\ { x ^ { 2 } } \end{array} \right) \\ h ( \mathbf { x } ) &amp; = ( 2 \pi ) ^ { - 1 / 2 } \\ g ( \boldsymbol { \eta } ) &amp; = \left( - 2 \eta _ { 2 } \right) ^ { 1 / 2 } \exp \left( \frac { \eta _ { 1 } ^ { 2 } } { 4 \eta _ { 2 } } \right) \end{aligned} ηu(x)h(x)g(η)=(μ/σ21/2σ2)=(xx2)=(2π)1/2=(2η2)1/2exp(4η2η12)

2.4.1 Maximum likelihood and sufficient statistics

∇ g ( η ) ∫ h ( x ) exp ⁡ { η T u ( x ) } d x + g ( η ) ∫ h ( x ) exp ⁡ { η T u ( x ) } u ( x ) d x = 0 \begin{array} { l } { \nabla g ( \boldsymbol { \eta } ) \int h ( \mathbf { x } ) \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { u } ( \mathbf { x } ) \right\} \mathrm { d } \mathbf { x } } \\ { \quad + g ( \boldsymbol { \eta } ) \int h ( \mathbf { x } ) \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { u } ( \mathbf { x } ) \right\} \mathbf { u } ( \mathbf { x } ) \mathrm { d } \mathbf { x } = 0 } \end{array} g(η)h(x)exp{ηTu(x)}dx+g(η)h(x)exp{ηTu(x)}u(x)dx=0 − 1 g ( η ) ∇ g ( η ) = g ( η ) ∫ h ( x ) exp ⁡ { η T u ( x ) } u ( x ) d x = E [ u ( x ) ] - \frac { 1 } { g ( \boldsymbol { \eta } ) } \nabla g ( \boldsymbol { \eta } ) = g ( \boldsymbol { \eta } ) \int h ( \mathbf { x } ) \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { u } ( \mathbf { x } ) \right\} \mathbf { u } ( \mathbf { x } ) \mathrm { d } \mathbf { x } = \mathbb { E } [ \mathbf { u } ( \mathbf { x } ) ] g(η)1g(η)=g(η)h(x)exp{ηTu(x)}u(x)dx=E[u(x)] − ∇ ln ⁡ g ( η ) = E [ u ( x ) ] - \nabla \ln g ( \boldsymbol { \eta } ) = \mathbb { E } [ \mathbf { u } ( \mathbf { x } ) ] lng(η)=E[u(x)]
那么对于MLE,对于独立同分布的观测数据 X = x 1 , x 2 , . . . , x n \mathbf{X}={\mathbf { x }_1,\mathbf { x }_2,...,\mathbf { x }_n} X=x1,x2,...,xn其似然函数为
p ( X ∣ η ) = ( ∏ n = 1 N h ( x n ) ) g ( η ) N exp ⁡ { η T ∑ n = 1 N u ( x n ) } p ( \mathbf { X } | \boldsymbol { \eta } ) = \left( \prod _ { n = 1 } ^ { N } h \left( \mathbf { x } _ { n } \right) \right) g ( \boldsymbol { \eta } ) ^ { N } \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \sum _ { n = 1 } ^ { N } \mathbf { u } \left( \mathbf { x } _ { n } \right) \right\} p(Xη)=(n=1Nh(xn))g(η)Nexp{ηTn=1Nu(xn)}
上式ln对 η \boldsymbol { \eta } η求导可得
− ∇ ln ⁡ g ( η M L ) = 1 N ∑ n = 1 N u ( x n ) - \nabla \ln g \left( \boldsymbol { \eta } _ { \mathrm { ML } } \right) = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \mathbf { u } \left( \mathbf { x } _ { n } \right) lng(ηML)=N1n=1Nu(xn) N → ∞ N \rightarrow \infty N时,这个正好就是 E [ u ( x ) ] \mathbb { E } [ \mathbf { u } ( \mathbf { x } ) ] E[u(x)],所以 η M L \boldsymbol { \eta } _ { \mathrm { ML } } ηML= η \boldsymbol { \eta } η

2.4.2 Conjugate priors

对于任何指数族分布都存在共轭先验
p ( η ∣ χ , ν ) = f ( χ , ν ) g ( η ) ν exp ⁡ { ν η T χ } p ( \boldsymbol { \eta } | \boldsymbol { \chi } , \nu ) = f ( \boldsymbol { \chi } , \nu ) g ( \boldsymbol { \eta } ) ^ { \nu } \exp \left\{ \nu \boldsymbol { \eta } ^ { \mathrm { T } } \boldsymbol { \chi } \right\} p(ηχ,ν)=f(χ,ν)g(η)νexp{νηTχ}
这样一来,后验为
p ( η ∣ X , χ , ν ) ∝ g ( η ) ν + N exp ⁡ { η T ( ∑ n = 1 N u ( x n ) + ν χ ) } p ( \boldsymbol { \eta } | \mathbf { X } , \chi , \nu ) \propto g ( \boldsymbol { \eta } ) ^ { \nu + N } \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \left( \sum _ { n = 1 } ^ { N } \mathbf { u } \left( \mathbf { x } _ { n } \right) + \nu \chi \right) \right\} p(ηX,χ,ν)g(η)ν+Nexp{ηT(n=1Nu(xn)+νχ)}

2.4.3 Noninformative priors

在某些概率推断的应⽤中,我们可能有⼀些先验知识,可以⽅便地通过先验概率分布表达出来。例如,如果先验分布令变量的某些值的概率为零,那么后验分布也将会使那些值的概率为零,与后续的数据观测⽆关。但是,在许多情形下,我们可能对分布应该具有的形式⼏乎完全不知道。这时,我们可以寻找⼀种形式的先验分布,被称为⽆信息先验(noninformative prior)。这种先验分布的⽬的是尽量对后验分布产⽣尽可能⼩的影响。这有时被称为“让数据⾃⼰说话”。最直观地想法就是采用常数先验,离散情况下很简答,但是对于连续的情况,很有可能导致不符合概率的性质。
如果我们要选择⼀个常数的先验概率分布,那么我们必须注意对于参数要使⽤⼀个
合适的表达形式。
这里考虑两个简单的例子:

1)平移不变性

对于具有这样形式的概率分布 p ( x ∣ μ ) = f ( x − μ ) p ( x | \mu ) = f ( x - \mu ) p(xμ)=f(xμ)具有平移不变性。如果 x ^ = x + c \widehat { x } = x + c x =x+c,则
p ( x ^ ∣ μ ^ ) = f ( x ^ − μ ^ ) p ( \widehat { x } | \widehat { \mu } ) = f ( \widehat { x } - \widehat { \mu } ) p(x μ )=f(x μ )
其中 μ ^ = μ + c \widehat { \mu } = \mu + c μ =μ+c。因此新变量的概率密度的形式与原变量相同,因此概率密度与原点的选择⽆关。我们想要选择⼀个能够反映这种平移不变性的先验分布,就必须满足
∫ A B p ( μ ) d μ = ∫ A − c B − c p ( μ ) d μ = ∫ A B p ( μ − c ) d μ \int _ { A } ^ { B } p ( \mu ) \mathrm { d } \mu = \int _ { A - c } ^ { B - c } p ( \mu ) \mathrm { d } \mu = \int _ { A } ^ { B } p ( \mu - c ) \mathrm { d } \mu ABp(μ)dμ=AcBcp(μ)dμ=ABp(μc)dμ为了能够对任意 A , B A,B A,B都满足,那么 p ( μ ) p ( \mu ) p(μ)为一个常数。之前在高斯分布中,对于均值的先验采用的是高斯分布 p ( μ ∣ μ 0 , σ 0 2 ) = N ( μ ∣ μ 0 , σ 0 2 ) p \left( \mu | \mu _ { 0 } , \sigma _ { 0 } ^ { 2 } \right) = \mathcal { N } \left( \mu | \mu _ { 0 } , \sigma _ { 0 } ^ { 2 } \right) p(μμ0,σ02)=N(μμ0,σ02),显然当 σ 0 2 → ∞ \sigma _ { 0 } ^ { 2 } \rightarrow \infty σ02时,这个高斯就很像一个常数了,且从之前得到的后验分布来看
μ N = σ 2 N σ 0 2 + σ 2 μ 0 + N σ 0 2 N σ 0 2 + σ 2 μ M L 1 σ N 2 = 1 σ 0 2 + N σ 2 \begin{aligned} \mu _ { N } &amp; = \frac { \sigma ^ { 2 } } { N \sigma _ { 0 } ^ { 2 } + \sigma ^ { 2 } } \mu _ { 0 } + \frac { N \sigma _ { 0 } ^ { 2 } } { N \sigma _ { 0 } ^ { 2 } + \sigma ^ { 2 } } \mu _ { \mathrm { ML } } \\ \frac { 1 } { \sigma _ { N } ^ { 2 } } &amp; = \frac { 1 } { \sigma _ { 0 } ^ { 2 } } + \frac { N } { \sigma ^ { 2 } } \end{aligned} μNσN21=Nσ02+σ2σ2μ0+Nσ02+σ2Nσ02μML=σ021+σ2N
其先验随着 σ 0 2 → ∞ \sigma _ { 0 } ^ { 2 } \rightarrow \infty σ02时就差不多消失了。达到了预期的目的。

2)缩放不变性

对于概率形式为
p ( x ∣ σ ) = 1 σ f ( x σ ) p ( x | \sigma ) = \frac { 1 } { \sigma } f \left( \frac { x } { \sigma } \right) p(xσ)=σ1f(σx)其中 σ &gt; 0 \sigma &gt; 0 σ>0。当 x ^ = c x \widehat { x } = c x x =cx p ( x ^ ∣ σ ^ ) = 1 σ ^ f ( x ^ σ ^ ) p ( \widehat { x } | \widehat { \sigma } ) = \frac { 1 } { \widehat { \sigma } } f \left( \frac { \widehat { x } } { \widehat { \sigma } } \right) p(x σ )=σ 1f(σ x )其中已经定义了 σ ^ = c σ \widehat { \sigma } = c \sigma σ =cσ。在此如果我们想找到一个描述这样性质的先验,必须满足 ∫ A B p ( σ ) d σ = ∫ A c B c p ( σ ) d σ = ∫ A B p ( 1 c σ ) 1 c d σ \int _ { A } ^ { B } p ( \sigma ) \mathrm { d } \sigma = \int _ { \frac { A } { c } } ^ { \frac { B } { c } } p ( \sigma ) \mathrm { d } \sigma = \int _ { A } ^ { B } p \left( \frac { 1 } { c } \sigma \right) \frac { 1 } { c } \mathrm { d } \sigma ABp(σ)dσ=cAcBp(σ)dσ=ABp(c1σ)c1dσ当对任意 A , B A,B A,B都成立,那么 p ( σ ) ∝ 1 σ p ( \sigma ) \propto \frac { 1 } { \sigma } p(σ)σ1,因为在 0 ≤ σ ≤ ∞ 0 \leq \sigma \leq \infty 0σ上的积分是发散的,所以这个是反常先验分布。令 z = l n σ z=ln\sigma z=lnσ p ( z ) = p ( σ ) ∣ d σ d z ∣ = 常 数 p(z)=p(\sigma)|\frac{d\sigma}{dz}|=常数 p(z)=p(σ)dzdσ=。因此,对于这个先验分布,在区间[1,10]和区间[10,100]以及区间[100,1000]上具有相同的概率质量。具体的例子也是高斯分布 N ( x ∣ μ , σ 2 ) ∝ σ − 1 exp ⁡ { − ( x ~ σ ) 2 } \mathcal { N } \left( x | \mu , \sigma ^ { 2 } \right) \propto \sigma ^ { - 1 } \exp \left\{ - \left( \frac { \tilde { x } } { \sigma } \right) ^ { 2 } \right\} N(xμ,σ2)σ1exp{(σx~)2}之前不考虑方差,而是考虑精度 λ = 1 σ 2 \lambda = \frac { 1 } { \sigma ^ { 2 } } λ=σ21,而对精度得先验采用的是Gamma分布 Gam ⁡ ( λ ∣ a , b ) = 1 Γ ( a ) b a λ a − 1 exp ⁡ ( − b λ ) \operatorname { Gam } ( \lambda | a , b ) = \frac { 1 } { \Gamma ( a ) } b ^ { a } \lambda ^ { a - 1 } \exp ( - b \lambda ) Gam(λa,b)=Γ(a)1baλa1exp(bλ),当 a = b = 0 a=b=0 a=b=0时,有 p ( λ ) ∝ 1 λ p ( \lambda ) \propto \frac { 1 } { \lambda } p(λ)λ1,这个时候刚好满足之前的定义,再看之前的后验概率 a N = a 0 + N 2 b N = b 0 + 1 2 ∑ n = 1 N ( x n − μ ) 2 = b 0 + N 2 σ M L 2 \begin{aligned} a _ { N } &amp; = a _ { 0 } + \frac { N } { 2 } \\ b _ { N } &amp; = b _ { 0 } + \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu \right) ^ { 2 } = b _ { 0 } + \frac { N } { 2 } \sigma _ { \mathrm { ML } } ^ { 2 } \end{aligned} aNbN=a0+2N=b0+21n=1N(xnμ)2=b0+2NσML2 a = b = 0 a=b=0 a=b=0时,后验概率只与数据相关!

2.5 Nonparametric Methods

本章中,我们已经关注过的概率分布都有具体的函数形式,并且由少量的参数控制。这些参数的值可以由数据集确定。这被称为概率密度建模的参数化(parametric)⽅法。这种⽅法的⼀个重要局限性是选择的概率密度可能对于⽣成数据来说,是⼀个很差的模型,从⽽会导致相当差的预测表现。流⼊,如果⽣成数据的过程是多峰的,那么这种分布不可能被⾼斯分布描述,因为它是单峰的。在最后⼀节,我们考虑⼀些⾮参数化(nonparametric)⽅法进⾏概率密度估计。这种⽅法对概率分布的形式进⾏了很少的假设。

2.5.1 Kernel density estimators

对于一个 D D D维的未知分布 p ( x ) p ( \mathbf { x } ) p(x),在一个小区域 R \mathcal { R } R
P = ∫ R p ( x ) d x P = \int _ { \mathcal { R } } p ( \mathbf { x } ) \mathrm { d } \mathbf { x } P=Rp(x)dx假设现在有 N N N个观测数据,且以 P P P的概率落入区域 R \mathcal { R } R中,总共有 K K K个点落入区域中的概率刚好可以表示为二项分布
Bin ⁡ ( K ∣ N , P ) = N ! K ! ( N − K ) ! P K ( 1 − P ) 1 − K \operatorname { Bin } ( K | N , P ) = \frac { N ! } { K ! ( N - K ) ! } P ^ { K } ( 1 - P ) ^ { 1 - K } Bin(KN,P)=K!(NK)!N!PK(1P)1K
E [ K / N ] = P \mathbb { E } [ K / N ] = P E[K/N]=P var ⁡ [ K / N ] = P ( 1 − P ) / N \operatorname { var } [ K / N ] = P ( 1 - P ) / N var[K/N]=P(1P)/N,当 N N N很大时, K ≃ N P K \simeq N P KNP当该区域相当小的时候,就可近似认为这个区域中的概率为常数 P ≃ p ( x ) V P \simeq p ( \mathbf { x } ) V Pp(x)V p ( x ) = K N V p ( \mathbf { x } ) = \frac { K } { N V } p(x)=NVK假设该区域为超立方体,且中心点为 x \mathbf { x } x,为了后续计数方便,定义 k ( u ) = { 1 , ∣ u i ∣ ⩽ 1 / 2 , i = 1 , … , D 0 ,  otherwise  k ( \mathbf { u } ) = \left\{ \begin{array} { l l } { 1 , } &amp; { \left| u _ { i } \right| \leqslant 1 / 2 , \quad i = 1 , \ldots , D } \\ { 0 , } &amp; { \text { otherwise } } \end{array} \right. k(u)={1,0,ui1/2,i=1,,D otherwise 这个函数称为kernel函数,那么总共落入该区域的点为 K = ∑ n = 1 N k ( x − x n h ) K = \sum _ { n = 1 } ^ { N } k \left( \frac { \mathbf { x } - \mathbf { x } _ { n } } { h } \right) K=n=1Nk(hxxn) p ( x ) = 1 N ∑ n = 1 N 1 h D k ( x − x n h ) p ( \mathbf { x } ) = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \frac { 1 } { h ^ { D } } k \left( \frac { \mathbf { x } - \mathbf { x } _ { n } } { h } \right) p(x)=N1n=1NhD1k(hxxn)但是这个方法在立方体的边界时会不连续,因此考虑选择一个平滑的核函数 p ( x ) = 1 N ∑ n = 1 N 1 ( 2 π h 2 ) 1 / 2 exp ⁡ { − ∥ x − x n ∥ 2 2 h 2 } p ( \mathbf { x } ) = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \frac { 1 } { \left( 2 \pi h ^ { 2 } \right) ^ { 1 / 2 } } \exp \left\{ - \frac { \left\| \mathbf { x } - \mathbf { x } _ { n } \right\| ^ { 2 } } { 2 h ^ { 2 } } \right\} p(x)=N1n=1N(2πh2)1/21exp{2h2xxn2}在这里插入图片描述
核函数需要满足以下条件 k ( u ) ≥ 0 ∫ k ( u ) d u = 1 \begin{array} { c } { k ( \boldsymbol { u } ) \geq 0 } \\ { \int k ( \boldsymbol { u } ) \mathrm { d } \boldsymbol { u } = 1 } \end{array} k(u)0k(u)du=1KDE的好处是不需要训练,但是测试阶段的损耗会随着训练数据集的变大而增大!

2.5.2 Nearest-neighbour methods

核⽅法进⾏概率密度估计的⼀个困难之处是控制核宽度的参数 h h h对于所有的核都是固定的。在⾼数据密度的区域,⼤的 h h h值可能会造成过度平滑,并且破坏了本应从数据中提取出的结构。但是,减⼩ h h h的值可能导致数据空间中低密度区域估计的噪声。因此, h h h的最优选择可能依赖于数据空间的位置。这个问题可以通过概率密度的近邻⽅法解决。 p ( x ) = K N V p ( \mathbf { x } ) = \frac { K } { N V } p(x)=NVKKDE是固定 V V V K K K,而NNM则是固定 K K K V V V。其核心想法是定义个球体,且球体的半径增大到包含了 K K K个点为止,其做估计的结果如下
在这里插入图片描述
可以看出,在KNN这个方法中也是有个参数 K K K需要调节的。
最后介绍下KNN用于分类的概率解释
总共有 N N N个点,每个类别 C k \mathcal { C } _ { k } Ck中有 N k N _ { k } Nk个点。则 ∑ k N k = N \sum _ { k } N _ { k } = N kNk=N。对于一个新的点 x \mathbf{x} x,以它为球心,让该球体包含 K K K个点,其体积为 V V V,那么按照之前密度估计可得 p ( x ∣ C k ) = K k N k V p \left( \mathbf { x } | \mathcal { C } _ { k } \right) = \frac { K _ { k } } { N _ { k } V } p(xCk)=NkVKk p ( x ) = K N V p ( \mathbf { x } ) = \frac { K } { N V } p(x)=NVK且每个类别的先验为 p ( C k ) = N k N p \left( \mathcal { C } _ { k } \right) = \frac { N _ { k } } { N } p(Ck)=NNk p ( C k ∣ x ) = p ( x ∣ C k ) p ( C k ) p ( x ) = K k K p \left( \mathcal { C } _ { k } | \mathbf { x } \right) = \frac { p \left( \mathbf { x } | \mathcal { C } _ { k } \right) p \left( \mathcal { C } _ { k } \right) } { p ( \mathbf { x } ) } = \frac { K _ { k } } { K } p(Ckx)=p(x)p(xCk)p(Ck)=KKk
正如到⽬前为⽌讨论的那样,K近邻⽅法和核密度估计⽅法都需要存储整个训练数据。如果数据集很⼤的话,这会造成很⼤的计算代价。通过建⽴⼀个基于树的搜索结构,使得(近似)近邻可以⾼效地被找到,⽽不必遍历整个数据集,这种计算代价可以被抵消,代价就是需要进⾏⼀次性的额外计算量。尽管这样,这些⾮参数化⽅法仍然有很⼤的局限性。另⼀⽅⾯,我们已经看到,简单的参数化模型⾮常受限,因为它们只能表⽰某⼀种形式的概率分布。因此我们需要寻找⼀种概率密度模型,这种模型需要⾮常灵活,并且它的复杂度可以被控制为与训练数据的规模⽆关。我们在后续章节中将会看到如何找到这种概率密度模型。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值