Pattern Recognition And Machine Learning 第一章-CSDN博客

2.最⼩化误差函数（error function）⽅法(x为观测数据集，t为目标数据集): $E\left ( w \right )=\frac{1}{2}\sum_{n=1}^{N}\left \{ y\left ( x_{n},w \right )-t_{n} \right \}^{2}$ (1.2)

3.有时候使⽤根均⽅（RMS）误差更⽅便: $E_{RMS}=\sqrt{2E\left ( w^{*} \right )/N}$ (1.3)

4.我们可以通过选择使得E(w)尽量⼩的w来解决曲线拟合问题。

5.寻找模型参数的最⼩平⽅⽅法代表了最⼤似然（maximum likelihood）的⼀种特殊情形.

6..经常⽤来控制过拟合现象的⼀种技术是正则化（regularization）。这种技术涉及到给误差函数（1.2）增加⼀个惩罚项，使得系数不会达到很⼤的值。这种惩罚项最简单的形式采⽤所有系数的平⽅和的形式。这推导出了误差函数的修改后的形式： $\tilde{E}\left ( w \right )=\frac{1}{2}\sum_{n=1}^{N}\left \{ y\left ( x_{n},w \right ) -t_{n}\right \}^{2}+\frac{\lambda }{2}\left \| w \right \|^{2}$ (1.4)

7.其中 $\left \| w \right \|^{2}=w^{T}w=w_{0}^{2}+w_{1}^{2}+...+w_{M}^{2}$

8.公式（1.4）中的误差函数也可以⽤解析的形式求出最⼩值。像这样的技术在统计学的⽂献中被叫做收缩（shrinkage）⽅法，因为这种⽅法减⼩了系数的值。⼆次正则项的⼀个特殊情况被称为⼭脊回归（ridge regression）。在神经⽹络的情形中，这种⽅法被叫做权值衰减（weight decay）。

1.2 概率论（参考）

1.当与决策论结合，概率论让我们能够根据所有能得到的信息做出最优的预测，即使信息可能是不完全的或者是含糊的。

2-1.这个例⼦涉及到两个随机变量X和Y 。

2-2.我们假设X可以取任意的xi，其中i = 1, . . . , M。

2-3.且Y 可以取任意的yj，其中j = 1, . . . , L。

2-4.考虑N次试验。

2-5.其中我们对X和Y 都进⾏取样，把X = $x_{i}$ 且Y = $y_{j}$ 的试验的数量记作 $n_{ij}$ 。

2-6.把X取值 $x_{i}$ （与Y 的取值⽆关）的试验的数量记作 $c_{i}$ 。

2-7.把Y 取值 $y_{j}$ 的试验的数量记作 $r_{j}$ 。

2-8. X取值 $x_{i}$ 且 Y 取值 $y_{j}$ 的概率被记作p(X = $x_{i}$ , Y = $y_{j}$ )，被称为X = $x_{i}$ 和Y = $y_{j}$ 的联合概率（joint probability）。

2-9.联合概率的计算⽅法为落在单元格i, j的点的数量与点的总数的⽐值: $p\left ( X=x_{i} ,Y=y_{i}\right )=\frac{n_{ij}}{N}$ (1.5)

考虑两个随机变量，X:取值为{ $x_{i}$ }，其中i = 1, . . . , M，和Y :取值为{ $y_{j}$ }，其中j = 1, . . . , L。

在这个例⼦中，我们取M = 5和L = 3。

如果我们考虑这些变量的总计N个实例，

那么我们将X = $x_{i}$ 且Y = $y_{j}$ j的实例的数量记作 $n_{ij}$ ，它是对应的单元格中点的数量。

列i中的点的数量，对应于X = $\dpi{100} x_{i}$ ，被记作 $c_{i}$ ，⾏j中的点的数量，对应于Y = $y_{j}$ ，被记作 $r_{j}$ 。

*单个格中数量为 $n_{ij}$ ，一列的总数量为 $c_{i}$ ，一行的总数量为 $r_{j}$ 。

3.,这⾥我们隐式地考虑极限N → ∞。类似地，X取值 $x_{i}$ （与Y 取值⽆关）的概率被记作p(X = $x_{i}$ )，计算⽅法为落在列i上的点的数量与点的总数的⽐值，即： $p\left ( X=x_{i} \right )=\frac{c_{j}}{N}$ (1.6)

4.由于图中列i上的实例总数就是这列的所有单元格中实例的数量之和，我们有 $c_{i} = \sum _{j}n_{ij}$ ，因此根据公式（1.5）和公式（1.6），我们有：

$p\left ( X=x_{j} \right )=\sum_{j=1}^{L}p\left ( X=x_{i} ,Y=y_{j}\right )$ (1.7)

这是概率的加和规则（sum rule）。

5.p(X = $x_{i}$ )有时被称为边缘概率（marginal probability），因为它通过把其他变量（本例中的Y ）边缘化或者加和得到。

6.如果我们只考虑那些X = $\dpi{100} x_{i}$ 的实例，那么这些实例中Y = $y_{j}$ 的实例所占的⽐例被写成p(Y = $y_{j}$ | X = $\dpi{100} x_{i}$ )，被称为给定X = $\dpi{100} x_{i}$ 的Y = $y_{j}$ 的条件概率（conditional probability）。

7。条件概率：计算落在单元格 i, j 的点的数量列i 的点的数量的⽐值，即： $p\left ( Y=y_{j} | X=x_{i}\right )=\frac{n_{ij}}{c_{i}}$ (1.8)

8.从公式（1.5）、公式（1.6）和（1.8），我们可以推导出下⾯的关系：

$p\left ( X=x_{i} ,Y=y_{j}\right )=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_{i}}\cdot \frac{c_{i}}{N}=p\left ( Y=y_{j}|X=x_{i} \right )p(X=x_{i})$ (1.9)

这被称为概率的乘积规则（product rule）。

9.以上可以得出更基本的定义规则：

$sum\: \, rule \, \, \, p\left ( X \right )=\sum_{Y}p\left ( X,Y \right )$ (1.10)

$product \, \, rule \, \, \, p(X,Y)=p(Y|X)p(X)$ (1.11)

这⾥p(X, Y )是联合概率，可以表述为“X且Y 的概率”。

p(Y | X)是条件概率，可以表述为“给定X的条件下Y 的概率”，p(X)是边缘概率，可以简单地表述为“X的概率”。

p(X)、p(Y) : X列的总概率、Y行的总概率。边缘概率

p( Y | X ) : 某个在X列中特定Y行区域上的一个点概率。条件概率，X条件下发生Y的概率。若要指定特定X则要乘个相应的P(X)

p(X,Y) : 既在特定X列又在特定Y列上的概率即某列的总概率 * 该列一个某点的概率。联合概率，X且Y的概率

10.根据(1.11)的公式，我们可以变化一下： $p(Y|X)=\frac{p(X,Y)}{p(X)}$ ,接着根据乘积规则，以及对称性p(X, Y ) = p(Y, X)，我们⽴即得到了下⾯的两个条件概率之间的关系：

$p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}$ (1.12)

这被称为贝叶斯定理（Bayes' theorem），在模式识别和机器学习领域扮演者中⼼⾓⾊。推导过程为： $p(Y,X)=p(X,Y)=p(Y|X)\cdot p(X)=p(X|Y)\cdot p(Y)$

11.我们可以把贝叶斯定理的分母看做归⼀化常数，⽤来确保公式（1.12）左侧的条件概率对于所有的Y 的取值之和为1。

12.使⽤加和规则，贝叶斯定理中的分母可以⽤出现在分⼦中的项表⽰：

$p(X)=\sum_{Y}^{}p(X|Y)p(Y)$ (1.13)

推导过程为小记10推导10中的 $p(X,Y)=p(X|Y)\cdot p(Y)$ 代入（1.10）可得。

p( Y | X )·p(X) ：特定X列上的一个点的概率(X且Y)，那么特定的P(X)这个总概率为特定X列上的所有点概率之和即 $p(X)=\sum_{Y}^{}p(X|Y)p(Y)$

p( X | Y ) ：在某Y条件下特定X的发生概率，那么这对于特定的X列特定Y行除去特定的Y列概率即可 $p(X|Y)=\frac{P(Y|X)\cdot p(X)}{p(Y)}$

p(Y|X)·p(X) = p(X|Y)·p(Y) 代表特定的X且特定的Y(具体的一个点)

13.对于下图（F -- a:绿色球，o:橙色球；B -- r:红色盒子，b:蓝色盒子）：

$p(F=a|B=r)=\frac{1}{4}$ (1.16)

$p(F=o|B=r)=\frac{3}{4}$ (1.17)

$p(F=a|B=b)=\frac{3}{4}$ (1.18)

$p(F=o|B=b)=\frac{1}{4}$ (1.19)

$p(F=a|B=r)+p(F=o|B=r)=1$ (1.20)

$p(F=a|B=b)+p(F=o|B=b)=1$ (1.21)

我们现在使⽤加和规则和乘积规则来计算选择⼀个球体的整体概率：

$p(F=a)=p(F=a|B=r)\cdot p(B=r)+p(F=a|B=b)\cdot p(B=b)=\frac{1}{4}\times \frac{4}{10}+\frac{3}{4}\times \frac{6}{10}=\frac{11}{20}$ (1.22)

14.反过来，假设我们知道被选择的橙色球，我们想知道它来⾃于哪个盒⼦。这需要我们在给定球体种类的条件下估计盒⼦的概率分布，然⽽公式（1.16）⾄公式（1.19）给出的是在已知盒⼦颜⾊的情形下球的概率分布。我们可以使⽤贝叶斯定理来解决这种逆转的条件概率问题：

$p(B=r|F=o) = \frac{p(F=o|B=r)\cdot p(B=r)}{p(F=o)}=\frac{3}{4}\times \frac{4}{10}\times \frac{20}{9}= \frac{2}{3}$ (1.23)

15.我们可以按照下⾯的⽅式表述贝叶斯定理。如果在我们知道球体的种类之前，有⼈问我们哪个盒⼦被选中，那么我们能够得到的最多的信息就是概率p(B)。我们把这个叫做先验概率 （prior probability），因为它是在我们观察到球体种类之前就能够得到的概率。

16.⼀旦我们知道球体是橙色球，我们就能够使⽤贝叶斯定理来计算概率p(B | F)。这个被称为后验概率（posterior probability），因为它是我们观察到F之后的概率。

注意，在这个例⼦中，选择红盒⼦的先验概率是 $\mathbf{\frac{4}{10}}$ ，所以与红盒⼦相⽐，我们更有可能选择蓝盒⼦。

然⽽，⼀旦我们观察到选择的球是橙色球，我们发现红盒⼦的后验概率现在是 $\mathbf{\frac{2}{3}}$ ，因此现在实际上更可能选择的是红盒⼦。

这个结果与我们的直觉相符，因为红盒⼦中橙色球的⽐例⽐蓝盒⼦⾼得多，因此观察到球体是橙色球这件事提供给我们更强的证据来选择红盒⼦。

17. 如果两个变量的联合分布可以分解成两个边缘分布的乘积，即 p(X, Y) = p(X)·p(Y ) ，那么我们说X和Y 相互独⽴（independent）。根据乘积规则，我们可以得到p(Y | X) = p(Y)，因此对于给定X的条件下的Y 的条件分布实际上独⽴于X的值。例如，如果每个盒⼦包含同样⽐例的苹果和橘⼦，那么p(F | B) = P(F)，从⽽选择橙色球的概率就与选择了哪个盒⼦⽆关。

1.2.1 概率密度（参考）

1.如果⼀个实值变量x的概率落在区间(x, x + $\large \mathbf{\delta x}$ )的概率由 p(x)· $\large \mathbf{\delta x}$ 给出（ $\large \mathbf{\delta x}$ → 0），那么p(x)叫做x的概率密度（probability density）相当于y值。

2.x位于区间(a, b)的概率由下式给出(上图绿色面积)：p(x)为概率密度，概率=p(x)函数围成的面积

$\large p(x\in (a,b))=\int_{a}^{b}p(x)dx$ (1.24)

3.由于概率是非负的，并且x的值⼀定位于实数轴上得某个位置，因此概率密度⼀定满足下⾯面两个条件：

$\large p(x)\geq 0$ (1.25)

$\large \int_{-\infty }^{\infty }p(x)dx=1$ (1.26)

4.在变量以非线性的形式变化的情况下，概率密度函数通过Jacobian因子变换为与简单的函数不同的形式。

例如，假设我们考虑⼀个变量的变化x = g(y)，那么函数f(x)就变成了 $\large \mathbf{\tilde{f}(y)=f(g(y))}$ 。

⼀个概率密度函数 $\large \mathbf{p_{x}(x)}$ ，它对应于⼀个关于新变量y的密度函数 $\large \mathbf{p_{y}(y)}$ 。(下标的不同表明了 $\large \mathbf{p_{x}(x)}$ 和 $\large \mathbf{p_{y}(y)}$ 是不同的密度函数实。)

对于很小的 $\large \mathbf{\delta x}$ 的值，落在区间(x, x + $\large \mathbf{\delta x}$ )内的观测会被变换到区间(y, y + $\large \mathbf{\delta y}$ )中。其中 $\large \mathbf{p_{x}(x)\delta x\simeq p_{y}(y)\delta y}$ 可推出以下关系是，因此

$\large p_{y}(y)=p_{x}(x)\left | \frac{dx}{dy} \right |=p_{x}(g(y))\left | {g}'(y)\right |$ (1.27)

这个性质的⼀个结果就是，概率密度最大值的概念取决于变量的选择。（可拓展）

5.位于区间(−∞, z)的x的概率由累积分布函数（cumulative distribution function）给出。定义为：

$\large P(z)=\int_{-\infty }^{z}p(x)dx$ (1.28)

这满足 P ′ (x) = p(x)，P(z)为分布函数，p(x)为密度函数， $\int_{-\infty }^{z}p(x)dx$ 为概率密度p(x)函数的围城面积=P(z)=概率值。

6.如果我们有几个连续变量 $\large x_{1}$ , . . . , $\large x_{D}$ ，整体记作向量 $\large \mathbf{x}$ ，那么我们可以定义联合概率密度p(x) = p( $\large x_{1}$ , . . . , $\large x_{D}$ )，使得 $\large \mathbf{x}$ 落在包含点 $\large \mathbf{x}$ 的无穷小体积 $\large \mathbf{\delta x}$ 的概率由 p(x)· $\large \mathbf{\delta x}$ 给出。多变量概率密度必须满足：

$\large p(x)\geq 0$ (1.29)

$\large \int p(x)dx=1$ (1.30)

其中，积分必须在整个 $\large \mathbf{x}$ 空间上进⾏。我们也可以考虑离散变量和连续变量相结合的联合概率分布。

6.注意，如果x是⼀个离散变量，那么p(x)有时被叫做概率质量函数（probability mass function），因为它可以被看做集中在合法的x值处的“概率质量”的集合。

7.概率的加和规则和乘积规则以及贝叶斯规则，同样可以应⽤于概率密度函数的情形，也可以应用于离散变量与连续变量相结合的情形。

例如，如果x和y是两个实数变量，那么加和规则和乘积规则的形式为：

$\large p(x)=\int p(x,y)dy$ (1.31) （根据 $p(X)=\sum_{Y}^{}p(X|Y)p(Y)$ ）

$\large p(x,y)=p(y|x)p(x)$ (1.32)

1.2.2 期望和协方差(参考、参考、参考)

1.在概率分布p(x)下，函数f(x)的平均值被称为f(x)的期望（expectation），记作 $\large E\left [ f \right ]$ 。

对于⼀个离散变量，它的定义为,这里的p(x)为概率值:

$\large \dpi{80} \large E\left [ f \right ]=\sum_x p(x)f(x)$ (1.33)

对于离散，相当于 $\large E[f]=\sum p(x)f(x)$ 意思为每个概率乘该概率对应的值。

2.平均值根据x的不同值的相对概率加权。

3.在连续变量的情形下，期望以对应的概率密度的积分的形式表⽰，此处p(x)为概率密度，p(x)dx为概率值：

$\large \dpi{80} \large E\left [ f \right ]=\int p(x)f(x)dx$ (1.34)

4.两种情况下，如果我们给定有限数量的N个点，这些点满足某个概率分布或者概率密度函数那么期望值可以通过求和的方式估计：

$\large E\left [ f \right ]\simeq \frac{1}{N}\sum _{n-1}^{N}f(x_{n})$ (1.35)

5.我们将会经常⽤到这个结果。当N → ∞时，公式（1.35）的估计就会变得精确。

6.有时，我们会考虑多变量函数的期望。这种情形下，我们可以使⽤下标来表明被平均的是哪个变量，例如：

$\large E_{x}\left [ f(x,y) \right ]$ (1.36)

表示函数f(x, y)关于x的分布的平均。注意， $\large E_{x}\left [ f(x,y) \right ]$ 是y的⼀个函数。

7.我们也可以考虑关于⼀个条件分布的条件期望（conditional expectation），即:

$\large E_{x}[\: f\: |\: y\: ] = \sum _{x}p(\: x\: |\: y\: )f(x)$ (1.37)

连续变量情形下的定义与此类似。

8.f(x)的⽅差（variance）被定义为:（观测值f(x)与其期望相减的差值的期望，方差反应的是观测值与其期望的偏差）

$\large var[f] = E[ \: \:\: \:\:\: (\: \: \: \:f(x) - E[f(x)] \: \: \: \:)^{2} \: \:\: \: \: \:]$ (1.38)

它度量了f(x)在均值E[f(x)]附近变化性的大小。

把平方项展开，我们看到⽅差也可以写成 $\large f(x)$ 和 $\large f(x)^{2}$ 的期望的形式:

$\large var[f]=E[f(x)^{2}]-E[f(x)]^2$ (1.39)

特别地，我们可以考虑变量x自身的方差，它有下式给出：

$\large var[x]=E[x^2]-E[x]^2$ (1.40)

9.对于两个随机变量x和y，协方差(covariance)被定义为（x值-x对应的期望值乘 y值-y对应的期望值）：

$\large cov[x,y] = E_{x,y} \left [ \left \{ x-E[x] \right \}\left \{ y-E[y] \right \} \right ]=E_{x,y}[xy]-E[x]E[y]$ (1.41)

它表⽰在多⼤程度上x和y会共同变化。如果x和y相互独⽴，那么它们的协⽅差为0。

10.在两个随机向量x和y的情形下，协⽅差是⼀个矩阵:

$\large cov[x,y]=E_{x,y}[ \left \{x-E[x] \right \} \left \{y^{T} -E[y^{T}] \right \} ]=E_{xy}[xY^T]-E[x]E[y^T]$ (1.42)

如果我们考虑向量x各个分量之间的协⽅差，那么我们可以将记号稍微简化⼀下：cov[x] ≡ cov[x, x]

本节理解：

上图的均值（权重、期望）： $\large E(x)= 1\times \frac{1}{2}+2\times \frac{1}{5}+5\times \frac{1}{6}$

对于离散型随机变量： $\large \begin{pmatrix} X : x_1 \: \: x_2 \: \: \cdots \: \: x_n \: \: \cdots\ \\ P: p_1 \: \: p_2 \: \: \cdots \: \: p_n \: \: \cdots\ \end{pmatrix}$ ,可以把 $\large x_i$ 看作得分， $\large p_i$ 相当于得到该分值的概率，那么数学期望是所有变量的加权平均数 $\large E(x)=\sum_tx_ip_i$

对于连续性随机变量：设f(x)是连续型的密度函数，那么P(x)=f(x)dx (相当于密度函数的面积)

两种期望值公式：

1.2.3 贝叶斯概率(参考、参考)

1.对于上节盒子(B=r、b)中球(F=a、o)的概率：

先验概率： $p(B)$

后验概率： $p(B=r|F=a)$ a球种类的观察提供了相关信息，改变选择了r盒子的概率。

2.类似，正如我们将看到的，在我们对数量(例如多项式曲线拟合例子中的参数w)进行推断时，我们可以采用一个类似的方法。在观察到数据之前，我们有一些关于参数w的假设，这以先验概率 p(w) 的形式给出，观测数据 $D=\left \{ t_1,\cdots ,t_N \right \}$ 的效果可以通过条件概率 p(D|w) 表达。这里：

先验概率： $p(w)$

后验概率： $P( w | D )$ 在观测到D之后估计w的不确定性。

3.贝叶斯定理的形式为： $p(w|D) =\frac{p(D|w)p(w)}{p(D)}$ (1.42)

4.贝叶斯定理右侧的量 $p(D|w)$ 由观测数据集D来估计，可以被看成参数向量w的函数，被称为似然函数（likelihood function）。它表达了在不同的参数向量 w 下，观测数据出现的可能性的大小。注意，似然函数不是 w 的概率分布，并且它关于 w 的积分并不（一定）等于1。

5.给定似然函数的定义，我们可以用自然语言表述贝叶斯定理：

$posterior \: \propto \: likelihood \times \: prior$ (1.44)

其中所有的量都可以看成w的函数。公式（1.43）的分母是⼀个归⼀化常数，确保了左侧的后验概率分布是⼀个合理的概率密度，积分为1。

6.实际上，对公式（1.43）的两侧关于w进⾏积分，我们可以⽤后验概率分布和似然函数来表达贝叶斯定理的分母：

$\large p(D)=\int p(D|w)p(w)dw$ (1.45)

7.一种决定频率学家的误差方法——自助法（bootstrap）：多个数据集使用下面的方式创造。假设我们的原始数据集由N个数据点 $\large X = \left \{ x_1,\cdots ,x_N \right \}$ 组成。我们可以通过随机从 $\large X$ 中抽取N个点的方式，创造一个新的数据集 $\large X_B$ 。抽取时可以有重复，因此某些 $\large X$ 中的数据点可能在 $\large X_B$ 中有重复，而其他的在 $\large X$ 中的点会在 $\large X_B$ 缺失。这个过程可以重复L次，生成 L个数据集，每个数据集的大小都是N,每个数据集时通过对原数据集 $\large X$ 采样得到的。统计参数估计的准确性之后就可以通过考察不同的 $\large X_B$ 数据集之间的预测的变化性来进行评估。

1.2.4 高斯分布(参考、参考)

1.正态分布（normal distribution）或者叫高斯分布(Gaussian distribution).

2.对于一元实值变量x,高斯分布被定义为：

$\large N(x|\mu ,\sigma ^2)=\frac{1}{(2\pi\sigma ^2)^{\frac{1}{2}} }\: \cdot e^{- \frac{1}{2\sigma ^2 }(x-\mu)^2}$ (1.46)

$\large \mu$ ,被叫做期望或均值(mean)、关于x的函数在高斯分布下的期望：

$\large \mu=E[x]=\int_{-\infty }^{\infty}N(x|\mu,\sigma^2)xdx$ (1.47)

以及 $\large \sigma^2$ ,被叫做方差(variance)、也被叫做方差参数。分布的最大值被叫做众数。对于高斯分布，众数与均值恰好相等：

$\large \sigma^2 = var[x]=E[x^2]-E[x]^2$ (1.48)

方差的平方根，由 $\large \sigma$ 给定，被叫做标准差(standard deviation)。

方差的倒数，记作 $\large \beta =\frac{1}{\sigma^2}$ ,被叫做精度（precision）。

3.根据公式(1.46)，我们看到高斯分布满足：

$\large N(x|\mu,\sigma^2)>0$ (1.49)

4.很容易证明高斯分布是归一化的，因此：

$\large \int^{\infty }_{-\infty}N(x|\mu,\sigma^2)dx=1$ (1.50)

5.高斯分布公式满足合理的概率密度函数的两个要求。

6.由于参数 $\large \mu$ 表示在分布下的x的平均值，它通常被叫做均值。类似地，二阶矩为：

$\large E[x^2]=\int_{-\infty}^{\infty}N(x|\mu,\sigma^2)x^2dx=\mu^2+\sigma^2$ (1.51)

7.对D维向量x的高斯分布，定义为：

$\large N(x|\mu, \sum)=\frac{1}{(2\pi )^{\frac{D}{2}}}\cdot \frac{1}{\left |\sum \right |^{\frac{1}{2}}}\cdot e^{-\frac{1}{2}(x-\mu)^T\sum^{-1}(x-\mu)}$ (1.52)

其中D维向量 $\large \mu$ 被称为均值，D x D 的矩阵 $\large \sum$ 被称为协方差， $\large \left | \sum \right |$ 表示 $\large \sum$ 的行列式。

8.现在假定我们有一个观测的数据集 x= $\large (x_1,\cdots ,x_N)^T$ ,表示标量变量 $\large x$ 的N次观测。注意，我们使用了一个字体不同的 x 来和向量变量 $\large (x_1,\cdots ,x_N)^T$ 作区分，后者记为 $\large x$ 。我们假定各次观测是独立地从高斯分布中抽取的，分布的均值 $\large \mu$ 和方差 $\large \sigma^2$ 未知，我们想根据数据集来确定这些参数。独立地从相同的数据点中抽取的数据点被称为独立同分布(independent and identically distributed)，通常缩写成i.i.d.。我们已经看到两个独立事件的联合概率可以由各个事件的边缘概率的乘积得到。由于我们的数据集 x 是独立同分布的，因此给定 $\large \mu$ 和 $\large \sigma^2$ ，我们可以给出数据集的概率：

$\large p(\mathbf{x}|\mu,\sigma^2)=\prod ^N_{n=1}N(x_n|\mu,\sigma^2)$ (求积运算) (1.53)

当我们把它看成 $\large \mu$ 和 $\large \sigma^2$ 的时候，这就是高斯分布的似然函数，图像如图1.14所示。

9.取对数简化了后续数学分析，而且最大化某个函数的对数等价于最大化这个函数。根据公式（1.46）和公式（1.53），对数似然函数可以写成（参考）：

$\large lnp(\mathbf{x}|\mu,\sigma^2)=-\frac{1}{2\sigma^2}\sum^N_{n=1}(x_n-\mu)^2-\frac{N}{2}ln\sigma^2-\frac{N}{2}ln(2\pi)$ (1.54)

9.关于 $\large \mu$ ，最大化函数(1.54),我们可以得到最大似然解：

$\large \mu_{ML}=\frac{1}{N}\sum^N_{n=1}x_n$ (1.55)

这样样本均值(sample mean),即观测值 $\large \left \{ x_n \right \}$ 的均值。

10.类似地，关于 $\large \sigma^2$ 最大化函数（1.54），我们的到了方差的最大似然解：

$\large \sigma^2_{ML}=\frac{1}{N}\sum^N_{n=1}(x_n-\mu_{ML})^2$ (1.56)

这是关于样本均值 $\large \mu_{ML}$ 的样本方差(sample variance)。注意，我们要同时关于 $\large \mu$ 和 $\large \sigma^2$ 来最大化函数(1.54)，但是在高斯分布的情况下， $\large \mu$ 的解和 $\large \sigma^2$ 无关，因此我们可以首先估计公式(1.55)然后使用这个结果来估计公式(1.56)

11.偏移（bias）:最大似然方法系统化地低估了分布的方差。（与多项式曲线拟合问题中遇到的过拟合问题相关）。

12.最大似然解 $\large \mu_{ML}$ 和 $\large \sigma^2_{ML}$ 都是数据集 $\large x_1,\cdots ,x_N$ 的函数。考虑这些量关于数据集的期望。数据集里面的点来自参数为 $\large \mu$ 和 $\large \sigma^2$ 的高斯分布。很容易证明（参考）：

$\large E[u_{ML}]=\mu$ (1.57)

$\large E[\sigma^2_{ML}]=(\frac{N-1}{N})\sigma^2$ (1.58)

因此，最大似然估计的平均值将会得到正确的均值，但是将会低估方差，因子为 $\large \frac{N-1}{N}$ 。这背后的直觉在图1.15中说明。

13.根据公式（1.58），下面的对于方差参数的估计是无偏的：

$\large \tilde{\sigma}^2=\frac{N}{N-1}\sigma^2_{ML}=\frac{1}{N-1}\sum^N_{n=1}(x_n-\mu_{ML})^2$ (1.59)

14.当数据点的数量N增大时，最大似然解的偏移会变得不太严重，并且在极限 $\large N\rightarrow \infty$ 的情况下，方差的最大似然解与产生数据的分布的真实方差相等。在实际应用中，只要N的值不太小，那么偏移的现象不是个大问题。实际上，我们会看到，最大似然的偏移问题是我们在多项式曲线拟合问题中遇到的过拟合问题的核心。

1.2.5 重新考察曲线拟合问题（参考）

1.曲线拟合问题的⽬标是能够根据N个输⼊ $\large \mathbf{x}=(x_1,\cdots ,x_N)^T$ 组成的数据集和它们对应的⽬标值 $\large \mathbf{t}=(t_1,\cdots ,t_N)^T$ 。

2.我们可以使用概率分布来表达关于目标变量的值的不确定性。为了达到这个目的，我们要假定：给定x的值、对应的t值服从高斯分布，分布的均值为 $\large y(x,\boldsymbol{\mathbf{}w})$ , 由公式 $y(x, w) = w_{0} + w_{1}x + w_{2}x ^{2} + . . . + w_{M}x^{M} = \sum_{j=0}^{M}w_{j}x^{j}$ (1.1)给出。因此，我们有( $\large \beta =\frac{1}{\sigma^2}$ )：

$\large p(\:t\:|\:x,\mathbf{w},\beta )=N(\:t\:|\:y(x,\mathbf{w},\beta ^{-1}))$ (1.60)

3.我们现在用训练数据 $\large \left \{ \mathbf{x},\mathbf{t} \right \}$ ,通过最大似然方法，来决定未知参数 $\large \boldsymbol{\mathbf{}w}$ 和 $\large \beta$ 的值。如果数据假定从分布（1.60）中抽取，那么似然函数为：

$\large p(\:\mathbf{t}\: |\:\mathbf{x},\mathbf{w},\beta )=\prod ^N_{n=1}N(\:t_n\:|\:y(x_n,\mathbf{w}),\beta^{-1})$ (1.61)

4.用公式：

$\large N(x|\mu ,\sigma ^2)=\frac{1}{(2\pi\sigma ^2)^{\frac{1}{2}} }\: \cdot e^{- \frac{1}{2\sigma ^2 }(x-\mu)^2}$ (1.46)给出的高斯分布的形式来替换，我们可以得到对数似然函数：

$\large ln\:p(\:t\:|\:x,w,\beta)=-\frac{\beta}{2}\sum^N_{n=1}\left \{ \:y(x_n,w)-t_n \right \}^2+\frac{N}{2}ln\:\beta-\frac{N}{2}ln\:(2\pi)$ (1.62)

5.对公式(1.62)，确定多项式系数的最大似然解 $\large w_{ML}$ 。由于公式右侧的最后两项不依赖于 $\large \boldsymbol{\mathbf{}w}$ ;可以用 $\large \frac{1}{2}$ 来代替系数 $\large \frac{\beta}{2}$ : 使用一个正的常熟系数来缩放对数似然函数并不会改变关于 $\large \boldsymbol{\mathbf{}w}$ 的最大值的位置;我们不去最大化似然函数，而是等价地去最小化负对数似然函数，可用 $E\left ( w \right )=\frac{1}{2}\sum_{n=1}^{N}\left \{ y\left ( x_{n},w \right )-t_{n} \right \}^{2}$ (1.2) 定义的平方和误差函数；在高斯噪声的假设下，平方和误差函数是最大化似然函数的一个自然结果

6.我们也可以使用最大似然方法来确定高斯条件分布的精度参数 $\beta$ 。关于 $\beta$ 来最大化函数（1.62），我们有

$\large \dpi{100} \frac{1}{\beta_{ML}}=\frac{1}{N}\sum^N_{n=1}\left \{ y(x_n,\mathbf{\boldsymbol{w}_{ML}})-t_n\right \}^2=\sigma^2$ (1.63)

7.已经确定了参数 $\large \boldsymbol{\mathbf{}w}$ 和 $\beta$ ，现在可以对新的 $\large x$ 的值进行预测。由于我们现在有一个概率模型，预测可以通过给出 t 的概率分布的预测分布(predictive distribution)来表示（而不仅仅是一个点的估计）。预测分布通过把最大似然参数带入公式（1.60）给出。

$\large p(\:t\:|\:x,\mathbf{\boldsymbol{w}_{ML}},\beta_{ML})=N(\:t\:|y(x,\mathbf{\boldsymbol{w}_{ML}}),\beta^{-1}_{ML})$ (1.64)

8.引入在多项式系数 $\large \boldsymbol{\mathbf{}w}$ 上的先验分布，简单起见，我们考虑下面形式的高斯分布,可由公式（1.61）和（1.46）推导：

$\large p(w|\alpha )=N(w|0,\alpha^{-1}I)=(\frac{\alpha}{2\pi})^{\frac{M+1}{2}}\cdot e^{-\frac{\alpha}{2}w^Tw}$ (1.65)

$\large \alpha$ 是分布的精度；

$\large M+1$ 是对于M阶多项式的向量 $\large \boldsymbol{\mathbf{}w}$ 的元素的总数

9.像 $\large \alpha$ 这样控制模型参数分布的参数，被称为超参数(hyperparameters)

10.使用贝叶斯定理， $\large \boldsymbol{\mathbf{}w}$ 的后验概率正比于先验分布和似然函数的乘积（∝：成正比）。

$\large p(\mathbf{\boldsymbol{w}}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{\boldsymbol{w}},\beta)p(\mathbf{\boldsymbol{w}}|\alpha)$ (1.66)

给定数据集，我们现在通过寻找最可能的 $\large \boldsymbol{\mathbf{}w}$ 值（即最大化后验概率）来确定 $\large \boldsymbol{\mathbf{}w}$ ，这种技术被称为最大后验（maximum posterior),简称MAP。

11.取公式（1.66）的负对数，结合公式（1.62）和公式（1.65），我们可以看到，最大化后验概率就是最小化下式：

$\large \frac{\beta}{2}\sum^N_{n=1}\left \{ y(x_n,\mathbf{\boldsymbol{w}})-t_n \right \}^2+\frac{\alpha}{2}\mathbf{\boldsymbol{w}}^T\mathbf{\boldsymbol{w}}$ (1.67)

因此我们考到最大化后验概率等价于最小化正则化的平方和误差函数（之前在公式（1.4）中提到），正则化参数为 $\large \lambda =\frac{\alpha}{\beta}$ 。

1.2.6 贝叶斯曲线拟合（参考）

1.最大似然估计和最大后验估计理论上都是进行的点估计，不是真正的贝叶斯。

2.在曲线拟合问题中，我们知道训练数据 $\large \mathbf{x}$ 和 $\large \mathbf{t}$ ，以及一个新的测试点 $\large x$ 我们的目标是预测 $\large t$ 的值。因此我们想估计预测分布 $\large p(t|x,\mathbf{x,t})$ 。我们假设参数 $\large \alpha$ 和 $\large \beta$ 是固定的。

3.预测(连续点的)概率分布可以写成下面的形式：

$\large p(t|x,\mathbf{x,t})=\int p(t|x,\textit{\textbf{w}})p(\textit{\textbf{w}}|\mathbf{x,t})d\textit{\textbf{w}}$ (1.68)

这里： $\large p(t|x,\textit{\textbf{w}})$ 由公式（1.60）给出：表示 $\large t$ 在高斯分布下的值（省略了对于 $\large \alpha$ 和 $\large \beta$ 的依赖）；

$\large p(\textit{\textbf{w}}|\mathbf{x,t})$ 是参数的后验分布，可通过对公式（1.66）归一化得到

由于 $\large \mathbf{x,t}$ 两个数据集只是为了得到 $\large \textit{\textbf{w}}$ ，现在 $\large \textit{\textbf{w}}$ 已有 $\large \mathbf{x,t}$ 就没用了 ,所以 $\large p(t|x,\textit{\textbf{w}})=p(t|x,\textbf{x,t},\textit{\textbf{w}})$

由于 $\large x$ 无法影响 $\large \textit{\textbf{w}}$ ，所以 $\large p(\textit{\textbf{w}}|x,\textbf{\textbf{}x,t})=p(\textit{\textbf{w}}|\textbf{\textbf{}x,t})$

4.公式（1.68）中的积分也可以解析地求解。可以得到预测分布由高斯形式：

$\large p(t|x,\mathbf{x,t})=N(t|m(x),s^2(x))$ (1.69)

其中：均值 $\large m(x)=\beta\phi (x)^T\cdot \textit{\textbf{S}} \sum^N_{n=1}\phi (x_n)t_n$ (1.70)

方差： $\large s^2(x)=\beta^{-1}+\phi(x)^T\textit{\textbf{S}}\, \phi(x)$ (1.71)

矩阵 $\large \textit{\textbf{S}}$ : $\large \textit{\textbf{S}}^{-1}=\alpha\textit{ \textbf{I}}+\beta\int^N_{n=1}\phi(x_n)\phi(x_n)^T$ (1.72)

$\large \textit{\textbf{I}}$ :单位矩阵,

$\large \alpha$ :是分布的精度,

$\large \beta=\frac{1}{\sigma^2}$ ,

向量 $\large \phi(x)$ 被定义为 $\large \phi_i(x)=x^i \: \: (i=0,\cdots ,M)$

1.3 模型选择

1.多项式的阶数、正则化系数λ控制了模型的自由参数的个数，因此控制了模型的复杂度。

2.通过正则化的最小平方，正则化系数 $\lambda$ 也控制了我们的模型复杂度。

3.交叉验证方法能够让可得到数据的 $\frac{S-1}{S}$ 用于训练，同时使用所有的数据来评估表现；当数据相当系数的时候，考虑 $S=N$ 的情况很合适，其中N是数据点的总数，这种技术叫做“留一法"(leave-one-out)

4.对所有模型的优劣求平均。如果留出的数据只有一个就是留一验证。

5.交叉验证的一个主要缺点是需要纪念性的训练的次数随着 S 而增加，这对于训练本身很耗时的问题更加突出。

1.训练次数随着分割的变细而增加，时间成本增加。

2.参数太多，参数的组合甚至是指数型增加，我们如何选择测试集。

6.我们模型是由训练数据而决定的，不是参数的选择而决定。

7.赤池信息准则AIC (akaike information criterion)：

$ln p(D|w_{ML})-M$ (1.73)

这⾥， $p(D|w_{ML})$ 是最合适的对数似然函数，M是模型中可调节参数的数量。

1.4 维度灾难

1.一种解法就是划分成小格子，格子里多的点就是这个区域的点。但划分个数随参数的维度增加激增。

2.推广到曲线拟合上。我们有D个输入变量，一个三阶多项式系数随着D的增加是幂增加。

$y(\textit{\textbf{x,w}}) = w_0+\sum^D_{i=1}w_ix_i+\sum^D_{i=1}\sum^D_{j=1}w_{ij}x_ix_j+\sum^D_{i=1}\sum^D_{j=1}\sum^D_{k=1}w_{ijk}x_ix_jx_k$ (1.74)

这里是系数的个数正比于 $D^3$ 。M阶多项式就正比于 $D^M$ 了。

增长速度是⼀个幂函数，这种⽅法会迅速变得很笨重，因此在实际应⽤中很受限。

3.对于维度，高斯分布的概率质量集中在薄球壳处。高维空间灾难产生的这种困难有时被称为维度灾难（curse of dimensionality)。即便如此，我们依然要使用高维度的数据。

4.真实数据两个特点：

1.目标受限在较低有效维度的空间》输入复杂的图片，但目标只是区分简单的任务。

2.局部比较光滑，不会突变》空隙部分用插值估计。

1.5 决策论

1.医学诊断，我们给病人拍了X光片，来诊断他是否得了癌症。输入向量 $x$ 是X光片的像素的灰度值集合，输出变量 $t$ 表示病人患有癌症，记作类 $C1$ 或者不患癌症，记作类 $C2$ 。实际中，我们可能二元变量（如： $t=0$ 来表示 $C1$ 类， $t=1$ 来表示 $C2$ 类）来表示。

2.希望得到 $p(C_k|x)$ ,使用贝叶斯方法这些概率可以表示为：

$p(C_k|x)=\frac{p(x|C_x)p(C_k)}{p(x)}$ (1.77)

$p(C_1)$ 表示在拍X光片前病人患有癌症的概率，同样的， $p(C_1|x)$ 表示获得X光片信息后使用贝叶斯定理修正的后验概率。

1.5.1 最小化错误分类率

1.我们需要⼀个规则来把每个 $x$ 的值分到⼀个合适的类别。这种规则将会把输⼊空间切分成不同的区域 $R_k$ ，这种区域被称为决策区域 （decision region）。

2.每个类别都有⼀个决策区域，区域 $R_k$ 中的所有点都被分到 $C_k$ 类。

3. 决策区域间的边界被叫做决策边界（decision boundary）或者决策⾯（decision surface）。

4.每⼀个决策区域未必是连续的，可以由若干个分离的区域组成。

5.如果我们把属于 $C_1$ 类的输⼊向量分到了 $C2$ 类（或者相反），那么我们就犯了⼀个错误。这种事情发⽣的概率为:

$p(mistake)=p(x\in R_1,C_2)+p(x\in R_2,C_1)=\int_{R_1}p(\textit{\textbf{x}},C_2)d\textbf{\textit{x}}+\int_{R_2}p(\textit{\textbf{x}},C_1)d\textbf{\textit{x}}$ (1.78)

6.很明显，为了最⼩化 $p$ (mistake)，我们对于 $x$ 的分类结果应该让公式（1.78）的被积函数尽量⼩。

7.如果对于给定的 $x$ 值，如果 $p(\textbf{\textit{x}},C_1)>p(\textbf{\textit{x}},C_2)$ ，那么我们就把 $x$ 分到类别 $C_1$ 中。

8.对于更⼀般的K类的情形，最⼤化正确率会稍微简单⼀些，即最⼤化下式:

$p(correct)=\sum^K_{k=1}p(\textbf{\textit{x}} \in{R_k} ,C_k)=\sum^K_{k=1}\int_{R_k}p(\textbf{\textit{x}},C_k)d\textbf{\textit{x}}$ (1.79)

当区域Rk的选择使得每个x都被分到使 $p(\boldsymbol{\textbf{}x},C_k)$ 最⼤的类别中时，上式取得最⼤值。

1.5.2 最小化期望损失

1.损失函数也被称为代价函数（cost function），是对于所有可能的决策或者动作可能产⽣的损失的⼀种整体的度量。

2.假设对于新的 $\boldsymbol{x}$ 的值，真实类别为 $C_k$ ，我们把 $\boldsymbol{x}$ 分类为 $C_j$ （其中 $j$ 可能与 $k$ 相等，也可能不相等）。这样做的结果是，我们会造成某种程度的损失，记作 $L_{kj}$ ，它可以看成损失矩阵（loss matrix）的第k, j个元素。

3.最优解是使损失函数最⼩的解。但是，损失函数依赖于真实的类别，这是未知的。

4.对于真实类别的不确定性通过联合概率分布 $p(\boldsymbol{x},C_k)$ 表⽰。因此，我们转⽽去最⼩化平均损失。

5.平均损失根据上述的联合概率分布计算，定义为：

$E[L]=\sum_k\sum_j\int_{R_j}L_{kj}p(\boldsymbol{x},C_k)d\boldsymbol{x}$ (1.80)

6.消去共同因子 $p(x)$ ，根据决策规则就是对于每个新的x，使它分到能使得下式取得最小值的j类:

$\sum_kL_{kj}p(C_k|\boldsymbol{x})$ (1.81)

1.5.3 拒绝选项

1.在我们假想的医疗例⼦中，⼀种合适的做法是，使⽤⾃动化的系统来对那些⼏乎没有疑问的X光片进行分类，然后把不容易分类的X光片留给人类的专家。

2.引入一个阈值 $\theta$ ，低于 $\theta$ 的后验概率 $p(C_k|\boldsymbol{x})$ 进行进一步检测或交给专家。

3.令θ = 1会使所有的样本都被拒绝，而如果有K个类别，那么令θ < $\frac{1}{K}$ 将会确保没有样本被拒绝。因此被拒绝的样本⽐例由θ的值控制。

1.5.4 推断和决策

1.分类问题划分成两个阶段：推断阶段和决策阶段。

2.在推断阶段，使用训练数据学习 $p(C_k|\boldsymbol{x})$ 的模型；在决策阶段，使用这些后验概率来进行最优的分类。

3.另一种可能的方法是，同时解决两个问题，即简单地学习一个函数，将输入 $\boldsymbol{x}$ 直接映射为决策，这样的函数被称为判别函数。

4.三种方法来解决决策问题：

（a)生成模型:通过对每个类别 $C_k$ ，独立的确定类别的条件密度 $p(x|C_k)$ 来解决推断问题，还分别推断出类别的先验概率 $p(C_k)$ ，然后使用贝叶斯定理：

$p(C_k|x)=\frac{p(x|C_k)p(C_k)}{p(x)}$ (1.82)

来计算类别的后验概率 $p(C_k|x)$ 。

(b)判别模型，解决确定类别的后验密度 $p(C_k|x)$ 的推断问题，然后，使用决策论来对新的输入 $x$ 进行分类。

(c)判别函数：找到能直接把输入 $x$ 映射到类别标签 $f(x)$ 。

5.一般都需要后验概率：

最小化风险：损失矩阵可能会修改
拒绝选项：可以设定拒绝比例
补偿类先验概率：修正样本分布的偏差
组合模型：多手段检测,分成独立的小问题（例如： $x_1$ , $x_B$ ）则： $p(x_1,x_B|C_k)=p(x_1|C_k)p(x_B|C_K)$ (1.84)

6.条件独立性假设（朴素贝叶斯假设）：（输入独立）:

$p(C_k|x_1,x_B)\propto p(x_1,x_B|C_k)p(C_k)\propto p(x_1|C_k)p(x_B|C_k)p(C_k)\propto \frac{p(C_k|x_1)p(C_k|x_B)}{p(C_k)}$ (1.85)

1.5.5 回归问题的损失函数

1.回到曲线拟合，计算平均损失，求期望：

$E[L]=\int\int L(t,y(x))p(x,t)dxdt$ (1.86)

损失为 $L(t,y(x))$ ,决策阶段包括对于每个输⼊x，选择⼀个对于t值的具体的估计y(x)。

2. 损失函数的⼀个通常的选择是平⽅损失，定义为 $L(t,y(x))=\left \{ y(x)-t \right \}^2$ 。平方误差：

$E[L]=\int\int \left \{ y(x)-t \right \} ^2p(x,t) dxdt$ (1.87)

3.⽬标是选择 $y(x)$ 来最⼩化 $E[L]$ 。变分法求解:

$\frac{\delta E[L]}{\delta y(x)} = 2 \int \left \{ y(x)-t \right \}p(x,t)dt=0$ (1.88)

4.整理：

$y(x) =\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt=E_t[t|x]$ (1.89)

这就是回归函数：条件x下t的条件均值

5.另一种方法，看平方项:

$\left \{ y(x)-t \right \}^2=\left \{ y(x)-E[t|x]+E[t|x]-t \right \}^2=\left \{ y(x)-E[t|x] \right \}^2+2\left \{ y(x)-E[t|x] \right \}\left \{ E[t|x]-t \right \}+\left \{ E[t|x]-t \right \}^2$

带入损失函数：

$E[L]=\int \left \{ y(x)-E[t|x] \right \}^2p(x)dx +\int var[t|x]p(x)dx$ (1.90)

6.不同的损失函数，闵可夫斯基损失函数：

$E[L_q]=\int\int \left | y(x)-t \right |^qp(x,t)dxdt$ (1.91)

当q = 2时，这个函数就变成了平⽅损失函数的期望, $E[L_q]$ 的最⼩值是条件均值。当q = 1时， $E[L_q]$ 的最⼩值是条件中位数。当q → 0时， $E[L_q]$ 的最⼩值是条件众数。

1.6 信息论

1.观测一个离散随机变量x我们得到多少信息。信息量=“惊讶程度”:

被告知小概率事件发生，信息量高；被告知一定会发生的事情，没有信息量。

用h(x)表示，有两个不相关事件x和y，它们的信息量就是它们的和: $h(x,y)=h(x)+h(y)$ ,对比 $p(x,y)=p(x)p(y)$ ，我们有：

$h(x)=-log_2p(x)$ (1.92)

负号确保信息一定是非负的，低概率事件》高信息量。

2.一随机变量的平均信息量:

$H[x]=- \sum_x p(x)log_2p(x)$ (1.93)

这叫做随机变量的熵。当 p(X)=0 , $p(x)log_2p(x)=0$

3.信息量的实际意义：考虑一个随机变量 x 。这个随机变量有8种可能的状态，每个状态都是等可能的。为了把 x 的值传给接收者，我们需要传输一个3比特的消息。x 变量的熵为：

$H[x]=-8\times \frac{1}{8}log_2\frac{1}{8}=3bits$

如果不是等可能（例如各自概率为： $\frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{16},\frac{1}{64},\frac{1}{64},\frac{1}{64},\frac{1}{64}$ )：

$H[x]=-\frac{1}{2}log_2\frac{1}{2}-\frac{1}{4}log_2\frac{1}{4}-\frac{1}{8}log_2\frac{1}{8}-\frac{1}{16}log_2\frac{1}{16}-\frac{4}{64}log_2\frac{1}{64}=2bits$

非均匀分布比均匀分布的熵要小。

4.利用非均匀分布这个特点，使用更短的编码来描述更可能的事件，更长的编码来描述不太可能的事件。希望这样做能够得到一个更短的平均编码长度。使用下面的编码串：0、10、110、1110、 111100、111101、111110、111111来表示状态。传输的编码的平均长度就是:

$average code length=\frac{1}{2} \times 1+\frac{1}{4} \times 2+\frac{1}{8} \times 3+\frac{1}{16} \times 4+4\times\frac{1}{64} \times 6=2bits$

这个值又⼀次与随机变量的熵相等。使用的时候分割就好了：11001110唯一地编码了状态序列c, a, d。

5.物理学上，熵是混乱程度:

考虑一个包含N个颜色不同的物体的集合，这些物体要被分到若干个箱子中，使得第i个箱子中有 $n_i$ 个物体。考虑把物体分配到箱子中的不同方案的数量。有N种方式选择第一个物体，有(N − 1)种方式选择第二个物体，以此类推，总共有N! 种方式把 N 个物体分配到箱子中。

不区分同一个箱子中同样元素的不同排列。箱子就是染缸。在第 $i^{th}$ 个箱子有 $n_i!$ 种排列方式。总方案数量为：

$W = \frac{N!}{\prod_i n_i! }$ (1.94)

这就是乘数。

熵是缩放后的对数乘数:

$H=\frac{1}{N}lnW=\frac{1}{N}lnN!-\frac{1}{N}\sum_iln\, n_i!$ (1.95)

现在我们考虑在 $\frac{n_i}{N}$ 固定的情况下， $N\rightarrow \infty$ 使用 Stirling's 近似：

$ln N!\simeq N\, lnN-N$ (1.96)

得出：

$H=-\lim_{N\rightarrow \infty}\sum_i(\frac{n_i}{N})ln(\frac{n_i}{N})=-\sum_ip_ilnp_i$ (1.97)

如果箱子是 x 的离散状态 $x_i$ ,x 的熵就是：

$H[p]=-\sum_ip(x_i)lnp(x_i)$ (1.98)

6.如果分布 $p(x_i)$ 在⼏个值周围有尖锐的峰值，熵就会相对较低。如果分布 $p(x_i)$ 相对平衡地跨过许多值，那么熵就会相对较⾼。由于 $0\leq p_i\leq 1$ ，因此熵是⾮负的。当 $p_i$ = 1且所有其他的 $p_{j\neq i}=0$ 时，熵取得最⼩值0。

7.在归一化条件的限制下我们用拉格朗日乘数法得到：

$\tilde{H}=-\sum_ip(x_i)lnp(x_i)+\lambda (\sum_ip(x_i)-1)$ (1.99)

8.其实可以求得当所有 $p(x_i)$ 相等的时候，取得最大值。而且二阶导数是负的，所以驻点是最大值：

$\frac{\partial^2\widetilde{H}}{\partial p(x_i)\partial p(x_j)}=-I_{ij}\frac{1}{p_i}$ (1.100)

其中 $I_{ij}$ 是单位矩阵的元素。

9.我们可以把熵的定义扩展到连续变量x的概率分布p(x)。首先把x切分成宽度为 $\Delta$ 的箱子；然后假设 p(x) 是连续的。根据均值定理可知，一定有个 $x_i$ :

$\int^{(i+1)\Delta }_{i\Delta}p(x)dx=p(x_i)\Delta$ (1.101)

这里： $\sum_ip(x_i)\Delta=1$

10.只要x落在第i个箱子中，我们就把x赋值为 $x_i$ 。因此观察到值 $x_i$ 的概率为 $p(x_i)\Delta$ 。连续分布就可以看作离散分布。

$H_\Delta=-\sum_ip(x_i)\Delta ln(p(x_i)\Delta)=-\sum_ip(x_i)\Delta \, lnp(x_i)-ln \Delta$ (1.102)

11.忽略第二项，当 $\Delta$ 趋近与0，只看第一项变为积分：

$\lim_{\Delta\rightarrow 0}\left \{ -\sum_ip(x_i)\Delta \, lnp(x_i) \right \}=-\int p(x)ln p(x)dx$ (1.103)

把它定义为微分熵： $\Delta$ 趋近于0,第二项发散。

$H[x]=-\int p(x)ln p(x)dx$ (1.104)

反映了：具体化一个连续变量需要的比特位。（个人理解是用在 $\Delta$ 趋近于0时候，整体的H变得无穷大）

12.我们最⼤化微分熵的时候要遵循下⾯三个限制, $\mu$ 为均值、 $\sigma^2$ 为方差：

$\int_{-\infty}^{\infty}p(x)dx=1$ (1.105)

$\int_{-\infty}^{\infty}xp(x)dx=\mu$ (1.106)

$\int_{-\infty}^{\infty}(x-\mu )^2p(x)dx=\sigma ^2$ (1.107)

13.带有限制条件的最⼤化问题可以使⽤拉格朗⽇乘数法求解：

$-\int^\infty_{-\infty}p(x)lnp(x)dx\, +\, \lambda _1(\int^\infty_{-\infty} p(x)dx-1)\, +\,\lambda _2(\int^\infty_{-\infty} xp(x)dx-\mu)\, +\,\lambda _3(\int^\infty_{-\infty} (x-\mu)^2p(x)dx-\sigma ^2)$

令其导数为零，有：

$p(x)=e^{-1+\lambda_1+\lambda_2x+\lambda_3(x-\mu)^2}$ (1.108)

带入上面三个限制方程：

$p(x)=\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}\: e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ (1.109)

得到高斯分布，最大化微分熵分布就是高斯分布。

14.求高斯分布的微分熵得到:

$H[x]=\frac{1}{2}\left \{ 1+ln(2\pi\sigma^2) \right \}$ (1.110)

熵随着分布宽度（即 $\sigma^2$ ）的增加⽽增加。这个结果也表明，与离散熵不同，微分熵可以是负的。

15.对于联合分布 $p(x,y)$ ，我们已知x的话，确定y需要的附加信息就是 $-lnp(y|x)$ 。平均附加信息就可以写成：

$H[y|x]=-\int\int p(y,x)\, lnp(y|x)\, dydx$ (1.111)

这就是条件熵。用乘积规则可以得到:其中，H[x, y] 是 p(x, y) 的微分熵，H[x] 是边缘分布 p(x) 的微分熵。

$H[x,y]=H[y|x]+H[x]$ (1.112)

因此，描述 x 和 y 所需的信息是描述 x ⾃⼰所需的信息，加上给定 x 的情况下具体化 y 所需的额外信息。

1.6.1 相对熵和互信息

1.有一个未知分布 p(x) ，我们用近似的分布 q(x) 对其建模，它们之间的差异（在已知 q(x) ,希望得到 p(x) ,需要的平均附加信息量）为:

$KL(p\parallel q)=-\int p(x) \, lnq(x)\,dx-(-\int p(x)\,lnp(x)\,dx)=-\int p(x)\,ln\left \{ \frac{q(x)}{p(x)} \right \}dx$ (1.113)

这就是p(x)和q(x)之间的相对熵，也叫做KL散度。不对称的量。

2.我们要证明 $KL(p \parallel q) \geq 0$ 且当且仅当 p(X)=q(x) 时等号成立。先引入凸函数的概念：

$f(\lambda a+(1-\lambda)b) \leq \lambda f(a)+(1-\lambda)f(b)$ (1.114)

这里 $0 \leq \lambda \leq 1$ .。凸函数的性质就是任意两点连线在函数上方。二阶导数处处为正。如果等号只在λ = 0和λ = 1处取得，我们就说这个函数是严格凸函数（strictly convex function）。

3.为Jensen不等式（Jensen's inequality）:使用归纳法，我们可以根据公式（1.114）证明凸函数f(x)满足,其中，对于任意点集 $\left \{x_i \right \}$ ，都有 $\lambda_i \geq 0$ 且 $\sum_i\lambda_i=1$ 。

$f(\sum^M_{i=1}\lambda_ix_i) \leq \sum^M_{i=1}\lambda_if(x_i)$ (1.115)

4.如果我们把 $\lambda_i$ 看成取值为 $\left \{x_i \right \}$ 的离散变量 x 的概率分布，那么公式（1.115）就可以写成：

$f(E[x])\leq E[f(x)]$ (1.116)

其中，E[·]表⽰期望。

5.对于连续变量，Jensen不等式的形式为：

$f(\int xp(x)dx) \leq \int f(x)p(x)dx$ (1.117)

6.我们把公式（1.117）形式的Jensen不等式应⽤于公式（1.113）给出的Kullback-Leibler散度，可得:

$KL(p \parallel q)=-\int p(x)ln(\frac{q(x)}{p(x)})dx \geq -ln\int q(x)dx=0$ (1.118)

利用了-lnx是凸函数的性质。

7.因为我们不知道 p(x )的分布，用 q(x|θ) ，想计算KL散度，可以用采样的方式，找到训练点 $x_n$ 个，期望可以用加和计算（参考1.35公式）:

$KL(p\parallel q)\simeq \sum^N_{n=1}\frac{-ln q(x_n | \theta )+lnp(x_n)}{N}$ (1.119)

看到第二项和 θ 无关，第一项是 θ 负对数的似然函数。最小化KL散度就相当于最大化似然函数。

8.x 和 y 的互信息：两个变量 x,y 如果变量不是独立的，我们通过计算联合概率和边缘概率乘积的KL散度，来判断是否接近独立。

$I[x,y]\equiv KL(\: \: p(x,y) \parallel p(x)p(y)\: \:)=-\int\int p(x,y)ln (\frac{p(x)p(y)}{p(x,y)})dxdy$ (1.120)

也是大于等于零的，在 x=y 的时候等号成立。利用概率加和和乘积规则：

$I[x,y]=H[x]-H[x|y]=H[y]-H[y|x]$ (1.121)

理解为：x和y的互信息 = x的边缘概率熵 - y下特定x的熵

互信息表示知道一个新的观测y而造成的x的不确定性的减小