PRML学习总结（2）——Probability Distributions

最新推荐文章于 2021-05-02 23:17:29 发布

Ghy817920

最新推荐文章于 2021-05-02 23:17:29 发布

阅读量464

点赞数

分类专栏： PRML学习总结

本文链接：https://blog.csdn.net/Ghy817920/article/details/90886227

版权

PRML学习总结专栏收录该内容

11 篇文章 4 订阅

订阅专栏

PRML学习总结（2）——Probability Distributions

2.1 Binary Variables
- 2.1.1 The beta distribution
2.2 Multinomial Variables
- 2.2.1 The Dirichlet distribution
2.3 The Gaussian Distribution
2.4 The Exponential Family
2.5 Nonparametric Methods
- 2.5.1 Kernel density estimators
- 2.5.2 Nearest-neighbour methods

2.1 Binary Variables

二元变量最常见的是投硬币， $x = 1$ 代表"head"， $x = 0$ 代表"tail"。
$\mu ) = \mu$
其中 $\leqslant \mu \leqslant 1$ ，亦可表示为
$\operatorname { Bern } ( x | \mu ) = \mu ^ { x } ( 1 - \mu ) ^ { 1 - x }$
这也是常常被称为Bernoulli distribution
$\begin{aligned} \mathbb { E } [ x ] & = \mu \\ \operatorname { var } [ x ] & = \mu ( 1 - \mu ) \end{aligned}$
下面考虑最大似然问题
有 $N$ 个数据 $\mathcal { D } = \left\{ x _ { 1 } , \ldots , x _ { N } \right\}$
$\mathcal { D } | \mu ) = \prod _ { n = 1 } ^ { N } p \left( x _ { n } | \mu \right) = \prod _ { n = 1 } ^ { N } \mu ^ { x _ { n } } ( 1 - \mu ) ^ { 1 - x _ { n } }$
$\mu _ { \mathrm { ML } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } x _ { n }$
那么考虑一种情况，如果总共投了3次，有3次都是"head"，那么由ML估计可以得到 $\mu=1$ ，但是这是不可能的，这说明模型过拟合了！后面将利用引入先验减轻过拟合！
下面引入二项分布，总共 $N$ 次投掷中，有 $m$ 次为"head"：
$\operatorname { Bin } ( m | N , \mu ) = \left( \begin{array} { c } { N } \\ { m } \end{array} \right) \mu ^ { m } ( 1 - \mu ) ^ { N - m }$
$\left( \begin{array} { c } { N } \\ { m } \end{array} \right) \equiv \frac { N ! } { ( N - m ) ! m ! }$
其期望和方差为
$\mathbb { E } [ m ] \equiv \sum _ { m = 0 } ^ { N } m \operatorname { Bin } ( m | N , \mu ) = N \mu$
$\operatorname { var } [ m ] \equiv \sum _ { m = 0 } ^ { N } ( m - \mathbb { E } [ m ] ) ^ { 2 } \operatorname { Bin } ( m | N , \mu ) = N \mu ( 1 - \mu )$

2.1.1 The beta distribution

正如前面所述，在小数据集中很容易过拟合，为了能从贝叶斯观点看这个问题，就必须对 $\mu$ 引入先验，引入先验的原则必须让后续的计算容易运算。在此Beta分布刚好符合这个条件
$\operatorname { Beta } ( \mu | a , b ) = \frac { \Gamma ( a + b ) } { \Gamma ( a ) \Gamma ( b ) } \mu ^ { a - 1 } ( 1 - \mu ) ^ { b - 1 }$
$\mathbb { E } [ \mu ] = \frac { a } { a + b }$
$\operatorname { var } [ \mu ] = \frac { a b } { ( a + b ) ^ { 2 } ( a + b + 1 ) }$
其中 $a, b$ 为beta分布的超参数
在这里插入图片描述
利用此先验可得到后验
$\mu | m , l , a , b ) \propto \mu ^ { m + a - 1 } ( 1 - \mu ) ^ { l + b - 1 }$
其中 $m$ 表示"head"的次数， $l$ 表示"tail"的次数。
$\mu | m , l , a , b ) = \frac { \Gamma ( m + a + l + b ) } { \Gamma ( m + a ) \Gamma ( l + b ) } \mu ^ { m + a - 1 } ( 1 - \mu ) ^ { l + b - 1 }$
后验刚好也是Beta分布，当先验和后验是同一类分布时，称为共轭分布！该后验分布就是在Beta分布上加上了 $(m, l)$ 。当我们做预测时，
$\mathcal { D } ) = \int _ { 0 } ^ { 1 } p ( x = 1 | \mu ) p ( \mu | \mathcal { D } ) \mathrm { d } \mu = \int _ { 0 } ^ { 1 } \mu p ( \mu | \mathcal { D } ) \mathrm { d } \mu = \mathbb { E } [ \mu | \mathcal { D } ]$
$\mathcal { D } ) = \frac { m + a } { m + a + l + b }$
分析上式，当 $\rightarrow \infty$ 时，就退化为ML问题。从之前的Beta分布随着超参数变化的图可知，随着所观察的数据越来越多，后验概率的方差
$\operatorname { var } [ \mu ] = \frac { a b } { ( a + b ) ^ { 2 } ( a + b + 1 ) }$
将会趋于0，也就是说不确定度越小。

2.2 Multinomial Variables

$\mathbf { x } | \boldsymbol { \mu } ) = \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { x _ { k } }$
其中 $\mathbf { x } = ( 0,0,1,0,0,0 ) ^ { \mathrm { T } }$ , $\boldsymbol { \mu } = \left( \mu _ { 1 } , \ldots , \mu _ { K } \right) ^ { \mathrm { T } }$ , $\sum _ { k } \mu _ { k } = 1$
同样考虑ML问题
$\mathcal { D } | \boldsymbol { \mu } ) = \prod _ { n = 1 } ^ { N } \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { x _ { n k } } = \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { \left( \sum _ { n } x _ { n k } \right) } = \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { m _ { k } }$
$\mu _ { k } ^ { \mathrm { ML } } = \frac { m _ { k } } { N }$
其中 $\sum _ { n } x _ { n k }$
当考虑多项式分布
$\operatorname { Mult } \left( m _ { 1 } , m _ { 2 } , \ldots , m _ { K } | \boldsymbol { \mu } , N \right) = \left( \begin{array} { c } { N } \\ { m _ { 1 } m _ { 2 } \dots m _ { K } } \end{array} \right) \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { m _ { k } }$
其中 $\sum _ { k = 1 } ^ { K } m _ { k } = N$

2.2.1 The Dirichlet distribution

与二项分布引入beta分布作为先验那样，对于多项式分布也可以引入先验分布Dirichlet!
$\operatorname { Dir } ( \boldsymbol { \mu } | \boldsymbol { \alpha } ) = \frac { \Gamma \left( \alpha _ { 0 } \right) } { \Gamma \left( \alpha _ { 1 } \right) \cdots \Gamma \left( \alpha _ { K } \right) } \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { \alpha _ { k } - 1 }$
$\alpha _ { 0 } = \sum _ { k = 1 } ^ { K } \alpha _ { k }$
则后验分布为
$\begin{aligned} p ( \boldsymbol { \mu } | \mathcal { D } , \boldsymbol { \alpha } ) & = \operatorname { Dir } ( \boldsymbol { \mu } | \boldsymbol { \alpha } + \mathbf { m } ) \\ & = \frac { \Gamma \left( \alpha _ { 0 } + N \right) } { \Gamma \left( \alpha _ { 1 } + m _ { 1 } \right) \cdots \Gamma \left( \alpha _ { K } + m _ { K } \right) } \prod _ { k = 1 } ^ { K } \mu _ { k } ^ { \alpha _ { k } + m _ { k } - 1 } \end{aligned}$

2.3 The Gaussian Distribution

$\mathcal { N } ( \mathbf { x } | \boldsymbol { \mu } , \mathbf { \Sigma } ) = \frac { 1 } { ( 2 \pi ) ^ { D / 2 } } \frac { 1 } { | \boldsymbol { \Sigma } | ^ { 1 / 2 } } \exp \left\{ - \frac { 1 } { 2 } ( \mathbf { x } - \boldsymbol { \mu } ) ^ { \mathrm { T } } \boldsymbol { \Sigma } ^ { - 1 } ( \mathbf { x } - \boldsymbol { \mu } ) \right\}$
熵最大的分布就是高斯分布！
很多模型都是采用高斯分布，但是不得不承认高斯分布也存在着一些问题：
1）其对称的协方差矩阵 $\Sigma$ 存在着 $D (D + 1) / 2$ 个自由参数，再加上 $\boldsymbol { \mu }$ 中 $D$ 个独立的自由参数，总共有 $D (D + 3) / 2$ 个参数，参数量随着 $D^2$ 增长，同时在求取 $\Sigma$ 的逆时，也会带来很大的计算复杂度。常见的简化方法是用对角矩阵代替一般的协方差矩阵 $\Sigma$ ，即 $\boldsymbol { \Sigma } = \operatorname { diag } \left( \sigma _ { i } ^ { 2 } \right)$ 。或者更简化为 $\boldsymbol { \Sigma } = \sigma ^ { 2 } \mathbf { I }$ 。这三种方式的二维高斯如下图所示
在这里插入图片描述
尽管这能在求逆时带来便捷，但是限制了模型的表达能力。
2）另一个限制高斯模型的是，高斯分布为单峰分布，很难拟合多模型的分布。
对于以上问题，可以利用隐变量模型解决以上两个问题；引入离散变量，从而可以得到高斯混合模型… …

2.3.1 Conditional Gaussian distributions

设 $\mathbf { x }\in \mathbf{R}^D$ ，且服从 $\mathcal { N } ( \mathbf { x } | \boldsymbol { \mu } , \mathbf { \Sigma } )$ ，将 $\mathbf{x}$ 划分为两部分 $\mathbf { x } _ { a }$ 和 $\mathbf { x } _ { b }$ ，其中 $\mathbf { x }_a\in \mathbf{R}^M$ , $\mathbf { x }_b\in \mathbf{R}^{D-M}$ 。
$\mathbf { x } = \left( \begin{array} { c } { \mathbf { x } _ { a } } \\ { \mathbf { x } _ { b } } \end{array} \right)$
对于均值和方差定义如下
$\boldsymbol { \mu } = \left( \begin{array} { l } { \boldsymbol { \mu } _ { a } } \\ { \boldsymbol { \mu } _ { b } } \end{array} \right)$
$\boldsymbol { \Sigma } = \left( \begin{array} { l l } { \boldsymbol { \Sigma } _ { a a } } & { \boldsymbol { \Sigma } _ { a b } } \\ { \boldsymbol { \Sigma } _ { b a } } & { \boldsymbol { \Sigma } _ { b b } } \end{array} \right)$
除了协方差矩阵，这儿定义一个precision矩阵
$\Lambda \equiv \Sigma ^ { - 1 }$
$\boldsymbol { \Lambda } = \left( \begin{array} { l l } { \boldsymbol { \Lambda } _ { a a } } & { \mathbf { \Lambda } _ { a b } } \\ { \boldsymbol { \Lambda } _ { b a } } & { \mathbf { \Lambda } _ { b b } } \end{array} \right)$
现在开始计算条件概率 $\left( \mathbf { x } _ { a } | \mathbf { x } _ { b } \right)$ ，只考虑高斯分布的指数部分
$\begin{aligned} - \frac { 1 } { 2 } ( \mathbf { x } - \boldsymbol { \mu } ) ^ { \mathrm { T } } \boldsymbol { \Sigma } ^ { - 1 } ( \mathbf { x } - \boldsymbol { \mu } ) & = \\ & - \frac { 1 } { 2 } \left( \mathbf { x } _ { a } - \boldsymbol { \mu } _ { a } \right) ^ { \mathrm { T } } \mathbf { \Lambda } _ { a a } \left( \mathbf { x } _ { a } - \boldsymbol { \mu } _ { a } \right) - \frac { 1 } { 2 } \left( \mathbf { x } _ { a } - \boldsymbol { \mu } _ { a } \right) ^ { \mathrm { T } } \boldsymbol { \Lambda } _ { a b } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) \\ & - \frac { 1 } { 2 } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) ^ { \mathrm { T } } \boldsymbol { \Lambda } _ { b a } \left( \mathbf { x } _ { a } - \boldsymbol { \mu } _ { a } \right) - \frac { 1 } { 2 } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) ^ { \mathrm { T } } \boldsymbol { \Lambda } _ { b b } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) \end{aligned}$
以上刚好为 $\mathbf { x }_a$ 的二次型函数，说明 $\left( \mathbf { x } _ { a } | \mathbf { x } _ { b } \right)$ 也是高斯分布。
$\boldsymbol { \Sigma } _ { a | b } = \mathbf { \Lambda } _ { a a } ^ { - 1 }$
$\begin{aligned} \boldsymbol { \mu } _ { a | b } & = \boldsymbol { \Sigma } _ { a | b } \left\{ \mathbf { \Lambda } _ { a a } \boldsymbol { \mu } _ { a } - \boldsymbol { \Lambda } _ { a b } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) \right\} \\ & = \boldsymbol { \mu } _ { a } - \boldsymbol { \Lambda } _ { a a } ^ { - 1 } \boldsymbol { \Lambda } _ { a b } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) \end{aligned}$
而
$\begin{aligned} \boldsymbol { \Lambda } _ { a a } & = \left( \boldsymbol { \Sigma } _ { a a } - \boldsymbol { \Sigma } _ { a b } \boldsymbol { \Sigma } _ { b b } ^ { - 1 } \boldsymbol { \Sigma } _ { b a } \right) ^ { - 1 } \\ \mathbf { \Lambda } _ { a b } & = - \left( \boldsymbol { \Sigma } _ { a a } - \boldsymbol { \Sigma } _ { a b } \boldsymbol { \Sigma } _ { b b } ^ { - 1 } \boldsymbol { \Sigma } _ { b a } \right) ^ { - 1 } \boldsymbol { \Sigma } _ { a b } \boldsymbol { \Sigma } _ { b b } ^ { - 1 } \end{aligned}$
所以
$\begin{array} { l } { \boldsymbol { \mu } _ { a | b } = \boldsymbol { \mu } _ { a } + \boldsymbol { \Sigma } _ { a b } \boldsymbol { \Sigma } _ { b b } ^ { - 1 } \left( \mathbf { x } _ { b } - \boldsymbol { \mu } _ { b } \right) } \\ { \boldsymbol { \Sigma } _ { a | b } = \boldsymbol { \Sigma } _ { a a } - \boldsymbol { \Sigma } _ { a b } \boldsymbol { \Sigma } _ { b b } ^ { - 1 } \boldsymbol { \Sigma } _ { b a } } \end{array}$

2.3.2 Marginal Gaussian distributions

$\left( \mathbf { x } _ { a } \right) = \mathcal { N } \left( \mathbf { x } _ { a } | \boldsymbol { \mu } _ { a } , \boldsymbol { \Sigma } _ { a a } \right)$

2.3.3 Bayes’ theorem for Gaussian variables

这儿提出一个概念为：线性高斯模型
$\begin{aligned} p ( \mathbf { x } ) & = \mathcal { N } \left( \mathbf { x } | \boldsymbol { \mu } , \mathbf { \Lambda } ^ { - 1 } \right) \\ p ( \mathbf { y } | \mathbf { x } ) & = \mathcal { N } \left( \mathbf { y } | \mathbf { A } \mathbf { x } + \mathbf { b } , \mathbf { L } ^ { - 1 } \right) \end{aligned}$
其中， $\boldsymbol { \mu },\mathbf { A },\mathbf { b }$ 为控制均值的参数， $\mathbf { \Lambda },\mathbf { L }$ 为precision矩阵。

$\begin{aligned} p ( \mathbf { y } ) & = \mathcal { N } \left( \mathbf { y } | \mathbf { A } \boldsymbol { \mu } + \mathbf { b } , \mathbf { L } ^ { - 1 } + \mathbf { A } \mathbf { \Lambda } ^ { - 1 } \mathbf { A } ^ { \mathrm { T } } \right) \\ p ( \mathbf { x } | \mathbf { y } ) & = \mathcal { N } \left( \mathbf { x } | \boldsymbol { \Sigma } \left\{ \mathbf { A } ^ { \mathrm { T } } \mathbf { L } ( \mathbf { y } - \mathbf { b } ) + \boldsymbol { \Lambda } \boldsymbol { \mu } \right\} , \boldsymbol { \Sigma } \right) \end{aligned}$
其中
$\boldsymbol { \Sigma } = \left( \boldsymbol { \Lambda } + \mathbf { A } ^ { \mathrm { T } } \mathbf { L } \mathbf { A } \right) ^ { - 1 }$

2.3.4 Maximum likelihood for the Gaussian

$\boldsymbol { \mu } _ { \mathrm { ML } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \mathbf { x } _ { n }$
$\boldsymbol { \Sigma } _ { \mathrm { ML } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \left( \mathbf { x } _ { n } - \boldsymbol { \mu } _ { \mathrm { ML } } \right) \left( \mathbf { x } _ { n } - \boldsymbol { \mu } _ { \mathrm { ML } } \right) ^ { \mathrm { T } }$
计算其期望
$\begin{aligned} \mathbb { E } \left[ \boldsymbol { \mu } _ { \mathrm { ML } } \right] & = \boldsymbol { \mu } \\ \mathbb { E } \left[ \boldsymbol { \Sigma } _ { \mathrm { ML } } \right] & = \frac { N - 1 } { N } \boldsymbol { \Sigma } \end{aligned}$
发现方差是有偏的，因此可以修正为
$\widetilde { \Sigma } = \frac { 1 } { N - 1 } \sum _ { n = 1 } ^ { N } \left( \mathbf { x } _ { n } - \boldsymbol { \mu } _ { \mathrm { ML } } \right) \left( \mathbf { x } _ { n } - \boldsymbol { \mu } _ { \mathrm { ML } } \right) ^ { \mathrm { T } }$

2.3.5 Sequential estimation

序列估计就是指每次只处理一个数据，这个对于在线学习有着很重要的指导意义。 $\boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N ) }$ 表示在观测到 $N$ 个数据后最大似然估计的均值。
$\begin{aligned} \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N ) } & = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \mathbf { x } _ { n } \\ & = \frac { 1 } { N } \mathbf { x } _ { N } + \frac { 1 } { N } \sum _ { n = 1 } ^ { N - 1 } \mathbf { x } _ { n } \\ & = \frac { 1 } { N } \mathbf { x } _ { N } + \frac { N - 1 } { N } \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N - 1 ) } \\ & = \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N - 1 ) } + \frac { 1 } { N } \left( \mathbf { x } _ { N } - \boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N - 1 ) } \right) \end{aligned}$
以上公式就可以进行在线学习，在观测到 $N - 1$ 个数据时，得到 $\boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N -1) }$ ，然后来了一个 $\mathbf { x } _ { n }$ ，则对其进行修正便可得到 $\boldsymbol { \mu } _ { \mathrm { ML } } ^ { ( N ) }$ 。下面介绍一种更加普适的方法得到序列算法，Robbins-Monro algorithm
对于联合分布 $\theta )$
$\theta ) \equiv \mathbb { E } [ z | \theta ] = \int z p ( z | \theta ) \mathrm { d } z$
这个函数称为回归函数。我们的目标是找到 $\theta ^ { \star }$ 使得 $\left( \theta ^ { \star } \right) = 0$ 。如果我们有很多关于 $\theta$ 的观测值，那么我们可以直接建模回归函数，这跟之前的回归问题很像，就可以得到目标值。但是我们现在只能观测到 $z$ ，且每次只能观测一个数据。我们可以使用Robbins-Monro algorithm得到序列估计的算法：
首先假设有
$\mathbb { E } \left[ ( z - f ) ^ { 2 } | \theta \right] < \infty$
且认为，当 $\theta > \theta ^ { \star }$ ， $\theta ) > 0$ ； $\theta < \theta ^ { \star }$ ， $\theta ) < 0$ ，则更新过程为
$\theta ^ { ( N ) } = \theta ^ { ( N - 1 ) } + a _ { N - 1 } z \left( \theta ^ { ( N - 1 ) } \right)$
$\left\{ a _ { N } \right\}$ 为一系列正数，且满足
$\begin{array} { l } { \lim _ { N \rightarrow \infty } a _ { N } = 0 } \\ { \sum _ { N = 1 } ^ { \infty } a _ { N } = \infty } \\ { \sum _ { N = 1 } ^ { \infty } a _ { N } ^ { 2 } < \infty } \end{array}$
在实际过程中，可以在最大似然中使用以上算法
$\frac { \partial } { \partial \theta } \left. \left\{ \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \ln p \left( \mathbf { x } _ { n } | \theta \right) \right\} \right| _ { \theta _ { \mathrm { ML } } } = 0$
当对 $\rightarrow \infty$ ，有
$\lim _ { N \rightarrow \infty } \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \frac { \partial } { \partial \theta } \ln p \left( x _ { n } | \theta \right) = \mathbb { E } _ { x } \left[ \frac { \partial } { \partial \theta } \ln p ( x | \theta ) \right]$
也就是说求最大似然估计，就是求上式的根，因此采用以上所说的算法
$\theta ^ { ( N ) } = \theta ^ { ( N - 1 ) } + a _ { N - 1 } \frac { \partial } { \partial \theta ^ { ( N - 1 ) } } \ln p \left( x _ { N } | \theta ^ { ( N - 1 ) } \right)$
具体地，对于高斯分布来说
$\frac { \partial } { \partial \mu _ { \mathrm { ML } } } \ln p \left( x | \mu _ { \mathrm { ML } } , \sigma ^ { 2 } \right) = \frac { 1 } { \sigma ^ { 2 } } \left( x - \mu _ { \mathrm { ML } } \right)$
当取 $\sigma ^ { 2 } / N$ 时，就得到了之前推出来的结果！

2.3.6 Bayesian inference for the Gaussian

接下来的问题就是在高斯分布参数上加入先验进而得到参数的后验分布：

1) 单变量高斯：方差已知

$\mathbf { X } | \mu ) = \prod _ { n = 1 } ^ { N } p \left( x _ { n } | \mu \right) = \frac { 1 } { \left( 2 \pi \sigma ^ { 2 } \right) ^ { N / 2 } } \exp \left\{ - \frac { 1 } { 2 \sigma ^ { 2 } } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu \right) ^ { 2 } \right\}$
将 $\mu$ 的先验设置为
$\mu ) = \mathcal { N } \left( \mu | \mu _ { 0 } , \sigma _ { 0 } ^ { 2 } \right)$
则
$\mu | \mathbf { X } ) \propto p ( \mathbf { X } | \mu ) p ( \mu )$
刚好也是一个高斯分布，
$\mu | \mathbf { X } ) = \mathcal { N } \left( \mu | \mu _ { N } , \sigma _ { N } ^ { 2 } \right)$
$\begin{aligned} \mu _ { N } & = \frac { \sigma ^ { 2 } } { N \sigma _ { 0 } ^ { 2 } + \sigma ^ { 2 } } \mu _ { 0 } + \frac { N \sigma _ { 0 } ^ { 2 } } { N \sigma _ { 0 } ^ { 2 } + \sigma ^ { 2 } } \mu _ { \mathrm { ML } } \\ \frac { 1 } { \sigma _ { N } ^ { 2 } } & = \frac { 1 } { \sigma _ { 0 } ^ { 2 } } + \frac { N } { \sigma ^ { 2 } } \end{aligned}$

2) 单变量高斯：均值已知

$\mathbf { X } | \lambda ) = \prod _ { n = 1 } ^ { N } \mathcal { N } \left( x _ { n } | \mu , \lambda ^ { - 1 } \right) \propto \lambda ^ { N / 2 } \exp \left\{ - \frac { \lambda } { 2 } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu \right) ^ { 2 } \right\}$
其先验分布为Gamma分布的时候
$\operatorname { Gam } ( \lambda | a , b ) = \frac { 1 } { \Gamma ( a ) } b ^ { a } \lambda ^ { a - 1 } \exp ( - b \lambda )$
$\begin{aligned} \mathbb { E } [ \lambda ] & = \frac { a } { b } \\ \operatorname { var } [ \lambda ] & = \frac { a } { b ^ { 2 } } \end{aligned}$
当该先验为 $\operatorname { Gam } \left( \lambda | a _ { 0 } , b _ { 0 } \right)$ ，则
$\lambda | \mathbf { X } ) \propto \lambda ^ { a _ { 0 } - 1 } \lambda ^ { N / 2 } \exp \left\{ - b _ { 0 } \lambda - \frac { \lambda } { 2 } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu \right) ^ { 2 } \right\}$
刚好表示为另一个Gamma分布 $\operatorname { Gam } \left( \lambda | a _ { N } , b _ { N } \right)$
$\begin{array} { l } { a _ { N } = a _ { 0 } + \frac { N } { 2 } } \\ { b _ { N } = b _ { 0 } + \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu \right) ^ { 2 } = b _ { 0 } + \frac { N } { 2 } \sigma _ { \mathrm { ML } } ^ { 2 } } \end{array}$

3) 单变量高斯：均值和方差都未知

$\begin{array} { c } { p ( \mathbf { X } | \mu , \lambda ) = \prod _ { n = 1 } ^ { N } \left( \frac { \lambda } { 2 \pi } \right) ^ { 1 / 2 } \exp \left\{ - \frac { \lambda } { 2 } \left( x _ { n } - \mu \right) ^ { 2 } \right\} } \\ { \propto \left[ \lambda ^ { 1 / 2 } \exp \left( - \frac { \lambda \mu ^ { 2 } } { 2 } \right) \right] ^ { N } \exp \left\{ \lambda \mu \sum _ { n = 1 } ^ { N } x _ { n } - \frac { \lambda } { 2 } \sum _ { n = 1 } ^ { N } x _ { n } ^ { 2 } \right\} } \end{array}$
当先验满足以下形式时就会形成共轭分布
$\begin{array} { l } { p ( \mu , \lambda ) \propto \left[ \lambda ^ { 1 / 2 } \exp \left( - \frac { \lambda \mu ^ { 2 } } { 2 } \right) \right] ^ { \beta } \exp \{ c \lambda \mu - d \lambda \} } \\ { \quad = \exp \left\{ - \frac { \beta \lambda } { 2 } ( \mu - c / \beta ) ^ { 2 } \right\} \lambda ^ { \beta / 2 } \exp \left\{ - \left( d - \frac { c ^ { 2 } } { 2 \beta } \right) \lambda \right\} } \end{array}$
其中 $c,d,\beta$ 为常数。实际中我们常常 $\mu , \lambda ) = p ( \mu | \lambda ) p ( \lambda )$ ，那么可以将 $\mu | \lambda )$ 看作为一个高斯分布，则
$\mu , \lambda ) = \mathcal { N } \left( \mu | \mu _ { 0 } , ( \beta \lambda ) ^ { - 1 } \right) \operatorname { Gam } ( \lambda | a , b )$
以上这个分布称为normal-gamma or Gaussian-gamma分布。

4) 多元变量高斯

在多元高斯的情况下与单高斯类似，均值用高斯分布作为先验，而precision矩阵由Wishart分布作为先验
$\mathcal { W } ( \mathbf { \Lambda } | \mathbf { W } , \nu ) = B | \mathbf { \Lambda } | ^ { ( \nu - D - 1 ) / 2 } \exp \left( - \frac { 1 } { 2 } \operatorname { Tr } \left( \mathbf { W } ^ { - 1 } \mathbf { \Lambda } \right) \right)$
常数 $B$ 为
$\mathbf { W } , \nu ) = | \mathbf { W } | ^ { - \nu / 2 } \left( 2 ^ { \nu D / 2 } \pi ^ { D ( D - 1 ) / 4 } \prod _ { i = 1 } ^ { D } \Gamma \left( \frac { \nu + 1 - i } { 2 } \right) \right) ^ { - 1 }$
同样的，在均值和precision矩阵都不知道的情况下
$\left( \boldsymbol { \mu } , \boldsymbol { \Lambda } | \boldsymbol { \mu } _ { 0 } , \beta , \mathbf { W } , \nu \right) = \mathcal { N } \left( \boldsymbol { \mu } | \boldsymbol { \mu } _ { 0 } , ( \beta \boldsymbol { \Lambda } ) ^ { - 1 } \right) \mathcal { W } ( \boldsymbol { \Lambda } | \mathbf { W } , \nu )$

2.3.7 Student’s t-distribution

把高斯分布和Gamma分布的联合分布的precision积掉
$\begin{aligned} p ( x | \mu , a , b ) & = \int _ { 0 } ^ { \infty } \mathcal { N } \left( x | \mu , \tau ^ { - 1 } \right) \operatorname { Gam } ( \tau | a , b ) \mathrm { d } \tau \\ & = \int _ { 0 } ^ { \infty } \frac { b ^ { a } e ^ { ( - b \tau ) } \tau ^ { a - 1 } } { \Gamma ( a ) } \left( \frac { \tau } { 2 \pi } \right) ^ { 1 / 2 } \exp \left\{ - \frac { \tau } { 2 } ( x - \mu ) ^ { 2 } \right\} \mathrm { d } \tau \\ & = \frac { b ^ { a } } { \Gamma ( a ) } \left( \frac { 1 } { 2 \pi } \right) ^ { 1 / 2 } \left[ b + \frac { ( x - \mu ) ^ { 2 } } { 2 } \right] ^ { - a - 1 / 2 } \Gamma ( a + 1 / 2 ) \end{aligned}$
令 $\tau \left[ b + ( x - \mu ) ^ { 2 } / 2 \right]$ ， $\nu = 2 a$ ， $\lambda = a / b$ ，可以得到最终的strudent’s t-distribution
$\operatorname { St } ( x | \mu , \lambda , \nu ) = \frac { \Gamma ( \nu / 2 + 1 / 2 ) } { \Gamma ( \nu / 2 ) } \left( \frac { \lambda } { \pi \nu } \right) ^ { 1 / 2 } \left[ 1 + \frac { \lambda ( x - \mu ) ^ { 2 } } { \nu } \right] ^ { - \nu / 2 - 1 / 2 }$
t分布是由无限多个均值相同precision不同的高斯分布混合而成！
在这里插入图片描述
当 $\nu \rightarrow \infty$ 时，t分布就变成了高斯分布。从图中可以发现t分布的“尾巴”要更长些，这样就给t分布带来了一个好处就是“鲁棒性”，主要是对外点的鲁棒性更强，具体看如下结果

可以看出高斯分布很容易受到外点的影响，而t分布则能很好地消除外点，得到较好的结果。
t分布可以表示（ $\nu = 2 a$ ， $\lambda=a/b$ ， $\eta = \tau b / a$ ）为
$\operatorname { St } ( x | \mu , \lambda , \nu ) = \int _ { 0 } ^ { \infty } \mathcal { N } \left( x | \mu , ( \eta \lambda ) ^ { - 1 } \right) \operatorname { Gam } ( \eta | \nu / 2 , \nu / 2 ) \mathrm { d } \eta$
那么可以类似地往多维高斯扩展
$\operatorname { St } ( \mathbf { x } | \boldsymbol { \mu } , \boldsymbol { \Lambda } , \nu ) = \int _ { 0 } ^ { \infty } \mathcal { N } \left( \mathbf { x } | \boldsymbol { \mu } , ( \eta \boldsymbol { \Lambda } ) ^ { - 1 } \right) \operatorname { Gam } ( \eta | \nu / 2 , \nu / 2 ) \mathrm { d } \eta$
最终得到
$\operatorname { St } ( \mathbf { x } | \boldsymbol { \mu } , \boldsymbol { \Lambda } , \nu ) = \frac { \Gamma ( D / 2 + \nu / 2 ) } { \Gamma ( \nu / 2 ) } \frac { | \mathbf { \Lambda } | ^ { 1 / 2 } } { ( \pi \nu ) ^ { D / 2 } } \left[ 1 + \frac { \Delta ^ { 2 } } { \nu } \right] ^ { - D / 2 - \nu / 2 }$
$\Delta ^ { 2 } = ( \mathbf { x } - \boldsymbol { \mu } ) ^ { \mathrm { T } } \boldsymbol { \Lambda } ( \mathbf { x } - \boldsymbol { \mu } )$
$\begin{array} { r l r l } { \mathbb { E } [ \mathbf { x } ] } & { = } { \mu } &, { \text { if } \quad \nu > 1 } \\ { \operatorname { cov } [ \mathbf { x } ] } & { = \frac { \nu } { ( \nu - 2 ) } \Lambda ^ { - 1 } } & { } & { \text { if } } & { \nu > 2 } \\ { \operatorname { mode } [ \mathbf { x } ] } & { = \mu } \end{array}$

2.3.8 Periodic variables

尽管高斯分布应用范围很广，但是在有些情况下，高斯分布就达不到预期效果，比如周期性变量！比如风向标的方向， $\leqslant \theta < 2 \pi$ 。
假如我们还是按照原来高斯分布来建模这个变量，对于观测值 $\theta _ { 1 } = 1 ^ { \circ }$ 和 $\theta _ { 2 } = 359 ^ { \circ }$ ，如果我们要计算样本均值和方差，当选择 $\circ }$ 作为起始点，那么得到均值为 $180∘ \circ }$ ，标准差为 $179∘ \circ }$ ；若选择 $180∘ \circ }$ 作为起始点的话，均值就变成了 $\circ }$ ，标准差为 $\circ }$ 。显然这样的方式建模与选择的起始点有关，这样是不合适的！
现在考虑周期性变量 $\mathcal { D } = \left\{ \theta _ { 1 } , \ldots , \theta _ { N } \right\}$ ，显然直接计算 $\left( \theta _ { 1 } + \cdots + \theta _ { N } \right) / N$ 将会很依赖坐标的选择。因此我们可以把这个周期性的变量建模为二维单位变量 $\mathbf { x } _ { 1 } , \dots , \mathbf { x } _ { N }$ ， $\left\| \mathbf { x } _ { n } \right\| = 1$ 。
在这里插入图片描述
$\overline { \mathbf { x } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \mathbf { x } _ { n }$
这样找到的均值位置点就与初始点角度无关，在笛卡尔坐标系下， $\mathbf { x } _ { n } = \left( \cos \theta _ { n } , \sin \theta _ { n } \right)$ ，那么可以进一步定义 $\overline { \mathbf { x } } = ( \overline { r } \cos \overline { \theta } , \overline { r } \sin \overline { \theta } )$ ，可以得到
$\overline { \theta } = \tan ^ { - 1 } \left\{ \frac { \sum _ { n } \sin \theta _ { n } } { \sum _ { n } \cos \theta _ { n } } \right\}$
我们稍后会看到，对于周期变量，如果恰当定义⼀个概率分布，最⼤似然⽅法可以很⾃然地得出这个结果。
我们现在考虑⾼斯分布对于周期变量的⼀个推⼴：von Mises分布，这个分布必须满足一下条件：
$\begin{aligned} p ( \theta ) & \geqslant 0 \\ p ( \theta ) \mathrm { d } \theta & = 1 \\ p ( \theta + 2 \pi ) & = p ( \theta ) \end{aligned}$
其中 $\theta + M 2 \pi ) = p ( \theta )$ for any integer $M$
首先考虑一个二元高斯分布
$\left( x _ { 1 } , x _ { 2 } \right) = \frac { 1 } { 2 \pi \sigma ^ { 2 } } \exp \left\{ - \frac { \left( x _ { 1 } - \mu _ { 1 } \right) ^ { 2 } + \left( x _ { 2 } - \mu _ { 2 } \right) ^ { 2 } } { 2 \sigma ^ { 2 } } \right\}$
显然它的常数轮廓为圆形，通过一下构造可以使其具有周期性，可能并未归一化
$\cos \theta , \quad x _ { 2 } = r \sin \theta$
$\mu _ { 1 } = r _ { 0 } \cos \theta _ { 0 } , \qquad \mu _ { 2 } = r _ { 0 } \sin \theta _ { 0 }$
我们仅仅考虑 $r = 1$ 的圆，且看高斯分布的指数部分
$\begin{array} { l } { - \frac { 1 } { 2 \sigma ^ { 2 } } \left\{ \left( r \cos \theta - r _ { 0 } \cos \theta _ { 0 } \right) ^ { 2 } + \left( r \sin \theta - r _ { 0 } \sin \theta _ { 0 } \right) ^ { 2 } \right\} } \\ { \quad = - \frac { 1 } { 2 \sigma ^ { 2 } } \left\{ 1 + r _ { 0 } ^ { 2 } - 2 r _ { 0 } \cos \theta \cos \theta _ { 0 } - 2 r _ { 0 } \sin \theta \sin \theta _ { 0 } \right\} } \\ { \quad = \frac { r _ { 0 } } { \sigma ^ { 2 } } \cos \left( \theta - \theta _ { 0 } \right) + \mathrm { const } } \end{array}$
令 $\sigma ^ { 2 }$ ，
$\left( \theta | \theta _ { 0 } , m \right) = \frac { 1 | } { 2 \pi I _ { 0 } ( m ) } \exp \left\{ m \cos \left( \theta - \theta _ { 0 } \right) \right\}$
以上就被称为von Mises distribution，
$\frac { 1 } { 2 \pi } \int _ { 0 } ^ { 2 \pi } \exp \{ m \cos \theta \} \mathrm { d } \theta$
在这里插入图片描述
当 $m$ 较大的时候，近似为高斯分布！下面开始考虑这个分布对参数 $m,\theta_0$ 的MLE,对数似然函数为
$\ln p \left( \mathcal { D } | \theta _ { 0 } , m \right) = - N \ln ( 2 \pi ) - N \ln I _ { 0 } ( m ) + m \sum _ { n = 1 } ^ { N } \cos \left( \theta _ { n } - \theta _ { 0 } \right)$
经过推导可以得到
$\theta _ { 0 } ^ { \mathrm { ML } } = \tan ^ { - 1 } \left\{ \frac { \sum _ { n } \sin \theta _ { n } } { \sum _ { n } \cos \theta _ { n } } \right\}$
跟之前得到的结果一致。对于 $m$ 的估计就比较复杂，这里给出结果
$\frac { 1 } { N } \sum _ { n = 1 } ^ { N } \cos \left( \theta _ { n } - \theta _ { 0 } ^ { \mathrm { ML } } \right)$
$\left( m _ { \mathrm { ML } } \right) = \left( \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \cos \theta _ { n } \right) \cos \theta _ { 0 } ^ { \mathrm { ML } } - \left( \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \sin \theta _ { n } \right) \sin \theta _ { 0 } ^ { \mathrm { ML } }$

2.3.9 Mixtures of Gaussians

尽管高斯分布有着很多很好的特性，但是高斯分布仅仅为单峰分布，有些多模态的分布它并不能很好的拟合
在这里插入图片描述
但是高斯混合分布就能很好地解决这个
$\mathbf { x } ) = \sum _ { k = 1 } ^ { K } \pi _ { k } \mathcal { N } \left( \mathbf { x } | \boldsymbol { \mu } _ { k } , \boldsymbol { \Sigma } _ { k } \right)$
$\sum _ { k = 1 } ^ { K } \pi _ { k } = 1$

可以令 $\pi _ { k } = p ( k )$ ，那么这个可以看作为类别的先验
$\mathbf { x } ) = \sum _ { k = 1 } ^ { K } p ( k ) p ( \mathbf { x } | k )$
根据贝叶斯公式，可以得到后验概率
$\begin{aligned} \gamma _ { k } ( \mathbf { x } ) & \equiv p ( k | \mathbf { x } ) \\ & = \frac { p ( k ) p ( \mathbf { x } | k ) } { \sum _ { l } p ( l ) p ( \mathbf { x } | l ) } \\ & = \frac { \pi _ { k } \mathcal { N } \left( \mathbf { x } | \boldsymbol { \mu } _ { k } , \boldsymbol { \Sigma } _ { k } \right) } { \sum _ { l } \pi _ { l } \mathcal { N } \left( \mathbf { x } | \boldsymbol { \mu } _ { l } , \boldsymbol { \Sigma } _ { l } \right) } \end{aligned}$
对于高斯混合模型的MLE后续将会介绍使用EM算法求得。

2.4 The Exponential Family

指数族分布的形式统一为 $\mathbf { x } | \boldsymbol { \eta } ) = h ( \mathbf { x } ) g ( \boldsymbol { \eta } ) \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { u } ( \mathbf { x } ) \right\}$
其中 $\boldsymbol { \eta }$ 为natural parameters。按照分布的积分为1的原则
$\boldsymbol { \eta } ) \int h ( \mathbf { x } ) \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { u } ( \mathbf { x } ) \right\} \mathrm { d } \mathbf { x } = 1$
下面具体介绍几个可以化成指数族分布的分布

1) Bernoulli distribution

$\mu ) = \operatorname { Bern } ( x | \mu ) = \mu ^ { x } ( 1 - \mu ) ^ { 1 - x }$ $\begin{aligned} p ( x | \mu ) & = \exp \{ x \ln \mu + ( 1 - x ) \ln ( 1 - \mu ) \} \\ & = ( 1 - \mu ) \exp \left\{ \ln \left( \frac { \mu } { 1 - \mu } \right) x \right\} \end{aligned}$ $\eta = \ln \left( \frac { \mu } { 1 - \mu } \right)$ $\sigma ( \eta ) = \frac { 1 } { 1 + \exp ( - \eta ) }$ $\eta ) = \sigma ( - \eta ) \exp ( \eta x )$ $\begin{aligned} u ( x ) | & = x \\ h ( x ) & = 1 \\ g ( \eta ) & = \sigma ( - \eta ) \end{aligned}$

2) multinomial distribution

$\mathbf { x } | \boldsymbol { \mu } ) = \prod _ { k = 1 } ^ { M } \mu _ { k } ^ { x _ { k } } = \exp \left\{ \sum _ { k = 1 } ^ { M } x _ { k } \ln \mu _ { k } \right\}$ $\mathbf { x } | \boldsymbol { \eta } ) = \exp \left( \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { x } \right)$
其中 $\eta _ { k } = \ln \mu _ { k }$
$\begin{aligned} \mathbf { u } ( \mathbf { x } ) & = \mathbf { x } \\ h ( \mathbf { x } ) & = 1 \\ g ( \boldsymbol { \eta } ) & = 1 \end{aligned}$
需要说明的是， $\mu_k$ 并不是独立的，而是满足
$\sum _ { k = 1 } ^ { M } \mu _ { k } = 1$
也就是说在之前其中 $M - 1$ 个值后，便可通过这个约束得到最后的值。为了简化参数量，并利用这个约束关系，我们可以只用 $M - 1$ 个参数，且它们仍要满足
$\leqslant \mu _ { k } \leqslant 1 , \quad \sum _ { k = 1 } ^ { M - 1 } \mu _ { k } \leqslant 1$
则 $\begin{aligned} \exp \left\{ \sum _ { k = 1 } ^ { M } x _ { k } \ln \mu _ { k } \right\} \\ & = \exp \left\{ \sum _ { k = 1 } ^ { M - 1 } x _ { k } \ln \mu _ { k } + \left( 1 - \sum _ { k = 1 } ^ { M - 1 } x _ { k } \right) \ln \left( 1 - \sum _ { k = 1 } ^ { M - 1 } \mu _ { k } \right) \right\} \\ & = \exp \left\{ \sum _ { k = 1 } ^ { M - 1 } x _ { k } \ln \left( \frac { \mu _ { k } } { 1 - \sum _ { j = 1 } ^ { M - 1 } \mu _ { j } } \right) + \ln \left( 1 - \sum _ { k = 1 } ^ { M - 1 } \mu _ { k } \right) \right\} \end{aligned}$ 令 $\ln \left( \frac { \mu _ { k } } { 1 - \sum _ { j } \mu _ { j } } \right) = \eta _ { k }$ 则 $\mu _ { k } = \frac { \exp \left( \eta _ { k } \right) } { 1 + \sum _ { j } \exp \left( \eta _ { j } \right) }$ 所以 $\mathbf { x } | \boldsymbol { \eta } ) = \left( 1 + \sum _ { k = 1 } ^ { M - 1 } \exp \left( \eta _ { k } \right) \right) ^ { - 1 } \exp \left( \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { x } \right)$ $\begin{aligned} \mathbf { u } ( \mathbf { x } ) & = \mathbf { x } \\ h ( \mathbf { x } ) & = 1 \\ g ( \boldsymbol { \eta } ) & = \left( 1 + \sum ^ { M - 1 } \exp \left( \eta _ { k } \right) \right) ^ { - 1 } \end{aligned}$

3) Gaussian distribution

$\begin{aligned} p \left( x | \mu , \sigma ^ { 2 } \right) & = \frac { 1 } { \left( 2 \pi \sigma ^ { 2 } \right) ^ { 1 / 2 } } \exp \left\{ - \frac { 1 } { 2 \sigma ^ { 2 } } ( x - \mu ) ^ { 2 } \right\} \\ & = \frac { 1 } { \left( 2 \pi \sigma ^ { 2 } \right) ^ { 1 / 2 } } \exp \left\{ - \frac { 1 } { 2 \sigma ^ { 2 } } x ^ { 2 } + \frac { \mu } { \sigma ^ { 2 } } x - \frac { 1 } { 2 \sigma ^ { 2 } } \mu ^ { 2 } \right\} \end{aligned}$ $\begin{aligned} \boldsymbol { \eta } & = \left( \begin{array} { c } { \mu / \sigma ^ { 2 } } \\ { - 1 / 2 \sigma ^ { 2 } } \end{array} \right) \\ \mathbf { u } ( x ) & = \left( \begin{array} { c } { x } \\ { x ^ { 2 } } \end{array} \right) \\ h ( \mathbf { x } ) & = ( 2 \pi ) ^ { - 1 / 2 } \\ g ( \boldsymbol { \eta } ) & = \left( - 2 \eta _ { 2 } \right) ^ { 1 / 2 } \exp \left( \frac { \eta _ { 1 } ^ { 2 } } { 4 \eta _ { 2 } } \right) \end{aligned}$

2.4.1 Maximum likelihood and sufficient statistics

$\begin{array} { l } { \nabla g ( \boldsymbol { \eta } ) \int h ( \mathbf { x } ) \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { u } ( \mathbf { x } ) \right\} \mathrm { d } \mathbf { x } } \\ { \quad + g ( \boldsymbol { \eta } ) \int h ( \mathbf { x } ) \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { u } ( \mathbf { x } ) \right\} \mathbf { u } ( \mathbf { x } ) \mathrm { d } \mathbf { x } = 0 } \end{array}$ $\frac { 1 } { g ( \boldsymbol { \eta } ) } \nabla g ( \boldsymbol { \eta } ) = g ( \boldsymbol { \eta } ) \int h ( \mathbf { x } ) \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \mathbf { u } ( \mathbf { x } ) \right\} \mathbf { u } ( \mathbf { x } ) \mathrm { d } \mathbf { x } = \mathbb { E } [ \mathbf { u } ( \mathbf { x } ) ]$ $\nabla \ln g ( \boldsymbol { \eta } ) = \mathbb { E } [ \mathbf { u } ( \mathbf { x } ) ]$
那么对于MLE，对于独立同分布的观测数据 $\mathbf{X}={\mathbf { x }_1,\mathbf { x }_2,...,\mathbf { x }_n}$ 其似然函数为
$\mathbf { X } | \boldsymbol { \eta } ) = \left( \prod _ { n = 1 } ^ { N } h \left( \mathbf { x } _ { n } \right) \right) g ( \boldsymbol { \eta } ) ^ { N } \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \sum _ { n = 1 } ^ { N } \mathbf { u } \left( \mathbf { x } _ { n } \right) \right\}$
上式ln对 $\boldsymbol { \eta }$ 求导可得
$\nabla \ln g \left( \boldsymbol { \eta } _ { \mathrm { ML } } \right) = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \mathbf { u } \left( \mathbf { x } _ { n } \right)$ 当 $\rightarrow \infty$ 时，这个正好就是 $\mathbb { E } [ \mathbf { u } ( \mathbf { x } ) ]$ ，所以 $\boldsymbol { \eta } _ { \mathrm { ML } }$ = $\boldsymbol { \eta }$ 。

2.4.2 Conjugate priors

对于任何指数族分布都存在共轭先验
$\boldsymbol { \eta } | \boldsymbol { \chi } , \nu ) = f ( \boldsymbol { \chi } , \nu ) g ( \boldsymbol { \eta } ) ^ { \nu } \exp \left\{ \nu \boldsymbol { \eta } ^ { \mathrm { T } } \boldsymbol { \chi } \right\}$
这样一来，后验为
$\boldsymbol { \eta } | \mathbf { X } , \chi , \nu ) \propto g ( \boldsymbol { \eta } ) ^ { \nu + N } \exp \left\{ \boldsymbol { \eta } ^ { \mathrm { T } } \left( \sum _ { n = 1 } ^ { N } \mathbf { u } \left( \mathbf { x } _ { n } \right) + \nu \chi \right) \right\}$

2.4.3 Noninformative priors

在某些概率推断的应⽤中，我们可能有⼀些先验知识，可以⽅便地通过先验概率分布表达出来。例如，如果先验分布令变量的某些值的概率为零，那么后验分布也将会使那些值的概率为零，与后续的数据观测⽆关。但是，在许多情形下，我们可能对分布应该具有的形式⼏乎完全不知道。这时，我们可以寻找⼀种形式的先验分布，被称为⽆信息先验（noninformative prior）。这种先验分布的⽬的是尽量对后验分布产⽣尽可能⼩的影响。这有时被称为“让数据⾃⼰说话”。最直观地想法就是采用常数先验，离散情况下很简答，但是对于连续的情况，很有可能导致不符合概率的性质。
如果我们要选择⼀个常数的先验概率分布，那么我们必须注意对于参数要使⽤⼀个
合适的表达形式。
这里考虑两个简单的例子：

1)平移不变性

对于具有这样形式的概率分布 $\mu ) = f ( x - \mu )$ 具有平移不变性。如果 $\widehat { x } = x + c$ ，则
$\widehat { x } | \widehat { \mu } ) = f ( \widehat { x } - \widehat { \mu } )$
其中 $\widehat { \mu } = \mu + c$ 。因此新变量的概率密度的形式与原变量相同，因此概率密度与原点的选择⽆关。我们想要选择⼀个能够反映这种平移不变性的先验分布，就必须满足
$\int _ { A } ^ { B } p ( \mu ) \mathrm { d } \mu = \int _ { A - c } ^ { B - c } p ( \mu ) \mathrm { d } \mu = \int _ { A } ^ { B } p ( \mu - c ) \mathrm { d } \mu$ 为了能够对任意 $A, B$ 都满足，那么 $\mu )$ 为一个常数。之前在高斯分布中，对于均值的先验采用的是高斯分布 $\left( \mu | \mu _ { 0 } , \sigma _ { 0 } ^ { 2 } \right) = \mathcal { N } \left( \mu | \mu _ { 0 } , \sigma _ { 0 } ^ { 2 } \right)$ ，显然当 $\sigma _ { 0 } ^ { 2 } \rightarrow \infty$ 时，这个高斯就很像一个常数了，且从之前得到的后验分布来看
$\begin{aligned} \mu _ { N } & = \frac { \sigma ^ { 2 } } { N \sigma _ { 0 } ^ { 2 } + \sigma ^ { 2 } } \mu _ { 0 } + \frac { N \sigma _ { 0 } ^ { 2 } } { N \sigma _ { 0 } ^ { 2 } + \sigma ^ { 2 } } \mu _ { \mathrm { ML } } \\ \frac { 1 } { \sigma _ { N } ^ { 2 } } & = \frac { 1 } { \sigma _ { 0 } ^ { 2 } } + \frac { N } { \sigma ^ { 2 } } \end{aligned}$
其先验随着 $\sigma _ { 0 } ^ { 2 } \rightarrow \infty$ 时就差不多消失了。达到了预期的目的。

2)缩放不变性

对于概率形式为
$\sigma ) = \frac { 1 } { \sigma } f \left( \frac { x } { \sigma } \right)$ 其中 $\sigma > 0$ 。当 $\widehat { x } = c x$ ， $\widehat { x } | \widehat { \sigma } ) = \frac { 1 } { \widehat { \sigma } } f \left( \frac { \widehat { x } } { \widehat { \sigma } } \right)$ 其中已经定义了 $\widehat { \sigma } = c \sigma$ 。在此如果我们想找到一个描述这样性质的先验，必须满足 $\int _ { A } ^ { B } p ( \sigma ) \mathrm { d } \sigma = \int _ { \frac { A } { c } } ^ { \frac { B } { c } } p ( \sigma ) \mathrm { d } \sigma = \int _ { A } ^ { B } p \left( \frac { 1 } { c } \sigma \right) \frac { 1 } { c } \mathrm { d } \sigma$ 当对任意 $A, B$ 都成立，那么 $\sigma ) \propto \frac { 1 } { \sigma }$ ，因为在 $\leq \sigma \leq \infty$ 上的积分是发散的，所以这个是反常先验分布。令 $z=ln\sigma$ ， $p(z)=p(\sigma)|\frac{d\sigma}{dz}|=常数$ 。因此，对于这个先验分布，在区间[1,10]和区间[10,100]以及区间[100,1000]上具有相同的概率质量。具体的例子也是高斯分布 $\mathcal { N } \left( x | \mu , \sigma ^ { 2 } \right) \propto \sigma ^ { - 1 } \exp \left\{ - \left( \frac { \tilde { x } } { \sigma } \right) ^ { 2 } \right\}$ 之前不考虑方差，而是考虑精度 $\lambda = \frac { 1 } { \sigma ^ { 2 } }$ ，而对精度得先验采用的是Gamma分布 $\operatorname { Gam } ( \lambda | a , b ) = \frac { 1 } { \Gamma ( a ) } b ^ { a } \lambda ^ { a - 1 } \exp ( - b \lambda )$ ，当 $a = b = 0$ 时，有 $\lambda ) \propto \frac { 1 } { \lambda }$ ，这个时候刚好满足之前的定义，再看之前的后验概率 $\begin{aligned} a _ { N } & = a _ { 0 } + \frac { N } { 2 } \\ b _ { N } & = b _ { 0 } + \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left( x _ { n } - \mu \right) ^ { 2 } = b _ { 0 } + \frac { N } { 2 } \sigma _ { \mathrm { ML } } ^ { 2 } \end{aligned}$ 当 $a = b = 0$ 时，后验概率只与数据相关！

2.5 Nonparametric Methods

本章中，我们已经关注过的概率分布都有具体的函数形式，并且由少量的参数控制。这些参数的值可以由数据集确定。这被称为概率密度建模的参数化（parametric）⽅法。这种⽅法的⼀个重要局限性是选择的概率密度可能对于⽣成数据来说，是⼀个很差的模型，从⽽会导致相当差的预测表现。流⼊，如果⽣成数据的过程是多峰的，那么这种分布不可能被⾼斯分布描述，因为它是单峰的。在最后⼀节，我们考虑⼀些⾮参数化（nonparametric）⽅法进⾏概率密度估计。这种⽅法对概率分布的形式进⾏了很少的假设。

2.5.1 Kernel density estimators

对于一个 $D$ 维的未知分布 $\mathbf { x } )$ ，在一个小区域 $\mathcal { R }$
$\int _ { \mathcal { R } } p ( \mathbf { x } ) \mathrm { d } \mathbf { x }$ 假设现在有 $N$ 个观测数据，且以 $P$ 的概率落入区域 $\mathcal { R }$ 中，总共有 $K$ 个点落入区域中的概率刚好可以表示为二项分布
$\operatorname { Bin } ( K | N , P ) = \frac { N ! } { K ! ( N - K ) ! } P ^ { K } ( 1 - P ) ^ { 1 - K }$
$\mathbb { E } [ K / N ] = P$ ， $\operatorname { var } [ K / N ] = P ( 1 - P ) / N$ ，当 $N$ 很大时， $\simeq N P$ 当该区域相当小的时候，就可近似认为这个区域中的概率为常数 $\simeq p ( \mathbf { x } ) V$ $\mathbf { x } ) = \frac { K } { N V }$ 假设该区域为超立方体，且中心点为 $\mathbf { x }$ ，为了后续计数方便，定义 $\mathbf { u } ) = \left\{ \begin{array} { l l } { 1 , } & { \left| u _ { i } \right| \leqslant 1 / 2 , \quad i = 1 , \ldots , D } \\ { 0 , } & { \text { otherwise } } \end{array} \right.$ 这个函数称为kernel函数，那么总共落入该区域的点为 $\sum _ { n = 1 } ^ { N } k \left( \frac { \mathbf { x } - \mathbf { x } _ { n } } { h } \right)$ $\mathbf { x } ) = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \frac { 1 } { h ^ { D } } k \left( \frac { \mathbf { x } - \mathbf { x } _ { n } } { h } \right)$ 但是这个方法在立方体的边界时会不连续，因此考虑选择一个平滑的核函数 $\mathbf { x } ) = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \frac { 1 } { \left( 2 \pi h ^ { 2 } \right) ^ { 1 / 2 } } \exp \left\{ - \frac { \left\| \mathbf { x } - \mathbf { x } _ { n } \right\| ^ { 2 } } { 2 h ^ { 2 } } \right\}$ 在这里插入图片描述
核函数需要满足以下条件 $\begin{array} { c } { k ( \boldsymbol { u } ) \geq 0 } \\ { \int k ( \boldsymbol { u } ) \mathrm { d } \boldsymbol { u } = 1 } \end{array}$ KDE的好处是不需要训练，但是测试阶段的损耗会随着训练数据集的变大而增大！

2.5.2 Nearest-neighbour methods

核⽅法进⾏概率密度估计的⼀个困难之处是控制核宽度的参数 $h$ 对于所有的核都是固定的。在⾼数据密度的区域，⼤的 $h$ 值可能会造成过度平滑，并且破坏了本应从数据中提取出的结构。但是，减⼩ $h$ 的值可能导致数据空间中低密度区域估计的噪声。因此， $h$ 的最优选择可能依赖于数据空间的位置。这个问题可以通过概率密度的近邻⽅法解决。 $\mathbf { x } ) = \frac { K } { N V }$ KDE是固定 $V$ 求 $K$ ，而NNM则是固定 $K$ 求 $V$ 。其核心想法是定义个球体，且球体的半径增大到包含了 $K$ 个点为止，其做估计的结果如下
在这里插入图片描述
可以看出，在KNN这个方法中也是有个参数 $K$ 需要调节的。
最后介绍下KNN用于分类的概率解释
总共有 $N$ 个点，每个类别 $\mathcal { C } _ { k }$ 中有 $N _ { k }$ 个点。则 $\sum _ { k } N _ { k } = N$ 。对于一个新的点 $\mathbf{x}$ ，以它为球心，让该球体包含 $K$ 个点，其体积为 $V$ ，那么按照之前密度估计可得 $\left( \mathbf { x } | \mathcal { C } _ { k } \right) = \frac { K _ { k } } { N _ { k } V }$ $\mathbf { x } ) = \frac { K } { N V }$ 且每个类别的先验为 $\left( \mathcal { C } _ { k } \right) = \frac { N _ { k } } { N }$ 则 $\left( \mathcal { C } _ { k } | \mathbf { x } \right) = \frac { p \left( \mathbf { x } | \mathcal { C } _ { k } \right) p \left( \mathcal { C } _ { k } \right) } { p ( \mathbf { x } ) } = \frac { K _ { k } } { K }$
正如到⽬前为⽌讨论的那样，K近邻⽅法和核密度估计⽅法都需要存储整个训练数据。如果数据集很⼤的话，这会造成很⼤的计算代价。通过建⽴⼀个基于树的搜索结构，使得（近似）近邻可以⾼效地被找到，⽽不必遍历整个数据集，这种计算代价可以被抵消，代价就是需要进⾏⼀次性的额外计算量。尽管这样，这些⾮参数化⽅法仍然有很⼤的局限性。另⼀⽅⾯，我们已经看到，简单的参数化模型⾮常受限，因为它们只能表⽰某⼀种形式的概率分布。因此我们需要寻找⼀种概率密度模型，这种模型需要⾮常灵活，并且它的复杂度可以被控制为与训练数据的规模⽆关。我们在后续章节中将会看到如何找到这种概率密度模型。