PRML笔记（一）

最新推荐文章于 2024-08-09 08:21:57 发布

以负熵为食

最新推荐文章于 2024-08-09 08:21:57 发布

阅读量2k

点赞数 16

分类专栏： PRML 文章标签：机器学习

本文链接：https://blog.csdn.net/qq_16603365/article/details/104215716

版权

本文是PRML（模式识别与机器学习）的初步笔记，主要探讨了概率理论的基础，包括概率密度、期望与协方差、贝叶斯概率等概念。在多项式曲线拟合的例子中，解释了过拟合和正则化的重要性，并介绍了如何通过最小化平方误差和加入惩罚项来避免过拟合。同时，文章也简述了信息论中的熵和相对熵，以及它们在数据压缩和模型选择中的作用。

摘要由CSDN通过智能技术生成

1 Introduction

本章主要讲解的是三大理论的一些基本概念知识，这三大理论分别为：probability theory，decision theory 以及 information theory。

1.1 Example: Polynomial Curve Fitting

本章刚开始便引入了一个“polynomial curve fitting”的regression problem。在这个拟合问题中，所要拟合的函数是sin( $2\pi x$ )，在生成数据时，本书的方法是：首先从(0,1)区间上等间距地得到input data x，然后通过sin( $2\pi x$ )计算得到一个数值，并用该数值与一个Gaussian noise相加，遂得到最终的结果。更为详细的过程见《PRML附录笔记》，其示意图如下所示：
在这里插入图片描述
那么为何要这样构造？首先，当我们对于数据的生成过程了如指掌之后，我们就很容易对一些learnable models进行比较，分析其performance。
为什么要加上噪声？因为这种方式正符合一般数据的生成过程：确定的函数+随机噪声。在正常数据的生成与获取过程中，我们一般都会遇到两种噪声：一是由随机过程引起的噪声（例如放射性物质的衰减）；二是由于该数据本身有某些unobserved的部分，这些部分的variability所带来的noise。
我们的目的在于：挖掘training data set中的regularity，并在遇到新的input data时，可以对output data进行更为准确的预测。
我们将如何应对数据本身带来的noise？在probability theory这一节中，作者将对这样的noise进行量化。而在decision theory中，作者将讲述如何利用这个probabilistic representation的方法，在某种特定的criterion下，进行最优决策。

本处将采用多项式来对生成的数据进行拟合：
$y(x,\mathbf{w})=w_0+w_1x+w_2x^2+\dots+w_Mx^M=\sum_{j=0}^Mw_jx^j\ \ \ \ \ \ (1.1)$
其中多项式系数通过vector $\mathbf{w}$ 来进行表示。虽然该式是关于x的非线性函数，但它是关于系数 $\mathbf{w}$ 的线性函数，因此被称为“linear model”。而linear model将在第3和4章重点讨论。
我们当前的目标在于寻找最合适的系数 $\mathbf{w}$ ，那么我们应该如何去做？首先我们需要意识到的一点是，我们希望我们构造的多项式函数能尽可能地拟合我们所得到的数据。因此，我们可以通过minimize error function的方式，对 $y(x,\mathbf{w})$ 与在training set中真实的target value t之间的差异进行衡量。
一种选取error function的的方式是平方误差和（sum of the squares of the errors）:
$E(\mathbf{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2\ \ \ \ \ \ (1.2)$
由该函数的特性可知，当且仅当该函数穿过training set中的所有data points之后，该式才等于0，否则该式大于0：
在这里插入图片描述
当我们选定了要用多项式函数去拟合training data之后，我们有两件事情同时需要去做：一是选择合适的系数；二是确定多项式的次数。
由于该error function是二次函数，因此其关于系数的derivative是linear function，所以该error function的最小值存在唯一解，我们将该解所对应的系数标记为 $\mathbf{w}^*$ 。
至于该多项式的order的选取，我们需要通过“model selection”这一方法进行。下图所示的，为在不同order值选取后，该多项式函数对于training data的拟合情况：
在这里插入图片描述
过小的order在training set上表现出较差的performance，过大的order会和真实的函数 sin( $2\pi x$ )之间相差甚远，导致overfitting的发生。
有时候我们希望将不同来源的error放在同一个scale下（以单个data point为scale）进行比较，此时我们可以采用root-mean-square error：
$E_{RMS}=\sqrt{\frac{2E(\mathbf{w}^*)}{N}}$
当然，具体而言，我们的training set和testing set中数据点的个数往往是不同的。那么如果我们想要将training set 和 testing set下模型的error放在一起比较，那么我们首先需要通过RMS error进行处理。
我们对不同order下该多项式函数模型在training和testing set上的error进行计算，并绘制成图，如下所示：
在这里插入图片描述
该结果与之前分析的相符合，当order过小的时候，model在两个数据集上的表现都不好；当order过大的时候，尽管model在training set上的表现较好，但在testing set上的表现极差。
有人可能会有这样的疑问：高次的多项式中不是本应包含低次的多项式吗？是这样的，然后由于高次多项式本身的灵活性非常大，导致它不仅拟合了数据中sin( $2\pi x$ ) 的部分，也同样拟合了noise的部分。
那么，当我们给定了model，即确定了该model的complexity之后，如果我们改变dataset的size，之前出现overfitting的model的performance又是如何呢？如下图所示：
在这里插入图片描述
我们可以看到，当数据量增大之后，模型over-fitting的问题减轻了。
然而很多时候，我们的dataset中的数据量是有限的，然而我们仍然希望通过某一种较为复杂的函数，对这些数据进行拟合，那么我们需要如何去做？
一种控制过拟合问题发生的方法是“regularization”，它通过在(1.2)式上加入惩罚项的方式，希望模型的参数尽量不要过大，一种较为简单形式的error function如下：
$\widetilde{E}(\mathbf{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+\frac{\lambda}{2}||\mathbf{w}||^2\ \ \ \ \ \ (1.4)$
其中有 $||\mathbf{w}||^2=w_0^2+w_1^0+\dots+w_M^2$ 。其中的 $\lambda$ 用于控制error和penalty之间的权重。
在使用regularization方法之后，原先overfitting的model在数据集上的表现如下所示：
在这里插入图片描述
可见，一个合适的 $\lambda$ 参数，会让原模型overfitting的问题大大减轻，然而过大的 $\lambda$ 会使得model的performance欠佳。

1.2 Probability Theory

由于测量方法所造成的noise，或是由于数据集有限的原因，我们的数据中存在许多的uncertainty。而本节内容，将用一种统一的框架，对这些uncertainty进行处理。
对于probability theory，我们首先要知道的是两个最基本的公式，即sum rule 和 product rule：
$\mathbf{sum\ \ rule}\ \ \ \ \ \ \ \ \ \ \ \ p(X)=\sum_Yp(X,Y)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1.10)\\ \mathbf{product\ \ rule}\ \ \ \ \ \ \ \ \ \ \ \ p(X,Y)=p(Y|X)p(X)\ \ \ \ \ \ (1.11)$
根据式(1.11)，以及对称特性：p(X,Y)=p(Y,X)，我们可以得到Bayes’ theorem：
$p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\ \ \ \ \ \ (1.12)$
再利用sum rule，我们可以得到Bayes’ theorem的分母为：
$p(X)=\sum_Yp(X|Y)p(Y)\ \ \ \ \ (1.13)$
其中，作者还对prior probability以及posterior probability进行了解释：对于变量Y的prior probability，实际上是在我们还没有对X进行观测时，对Y发生的概率所进行的估计。而对于变量Y的posterior probability，实际上是在对X进行观测，并得知X具体取值的前提下，我们对prior的一种修正。
此外，关于两个变量相互独立的定义：p(X,Y)=p(X)p(Y)。并且，运用product rule可以得知，在两个随机变量相互独立的前提下，有p(Y|X)=p(Y)。

1.2.1 Probability densities

之前所有的问题都是关于离散变量的，当将关注点转向连续型变量之后，我们需要对real-valued random variable的概率分布进行分析：
- 假设real-valued variable x落在区间 $(x,x+\delta x)$ 内的概率为 $p(x)\delta x$ （当 $\delta x\rightarrow$ 0时），则此时p(x)被称为概率密度。因此，当x落在(a,b)区间内时，其概率为：
  $p(x\in (a,b))=\int_a^bp(x)\text{d}x\ \ \ \ \ \ (1.24)$
  又由于概率的非负性以及x在实数范围取值的规定，所以可得：
  $p(x)\geq 0\ \ \ \ \ \ (1.25)\\ \int_{-\infin}^{\infin}p(x)\text{d}x=1\ \ \ \ \ \ (1.26)$
我们需要注意的一点是问题是：
- 设有一个在variables之间的non-linear transformation x=g(y)，那么，对于确定性的函数来说，f(x)可以表示成： $\widetilde{f}(y)=f(g(y))$ 。由此，我们也可以根据transformation function g，在概率密度函数 $p_x(x)$ 和 $p_y(y)$ 之间找到对应关系。假设有observations落在了( $x+\delta x$ )这个区间内，那么在经过transformation g之后，必然是存在另一个对应的区间( $y,y+\delta y$ )，在这两个区间内，对应的随机变量的取值概率近似相等，即： $p_x(x)\delta x\simeq p_y(y)\delta y$ ，因此便有：
  $p_y(y)=p_x(x)\left|\frac{dx}{dy}\right|\\ =p_x(g(y))\left|g\prime(y)\right|\ \ \ \ \ \ (1.27)$
  上述文字中，加粗的部分是我要着重说明的，因为书上并没有点透到这一步。
  从另一个角度我们也可以进行理解：这里面要进行的non-linear transformation实际上是要在累积分布函数(CDF)上进行，因此转换到概率密度函数时，必然存在一个求一阶导的过程，通过该过程中所要使用的求导链式法则，我们就可以得到上式。
  那么通过式(1.27)，我们能得到什么信息呢？如果两个随机变量之间存在非线性关系，那么这两个随机变量取到概率密度最大值时的变量值（记为： $x^*, y^*$ ），一般不满足关系： $x^*=g(y^*)$ 。所以说，概率密度最大值，其实际上与我们所选取的变量有关。
  x落在区间( $-\infin, z$ )之间的概率为：
  $P(z)=\int_{-\infin}^zp(x)dx\ \ \ \ \ \ (1.28)$
  其中P(z)就是被称为cumulative distribution function(CDF)的函数，该函数满足： $P^\prime(x)=p(x)$ 。
  而如果我们有一连串的continuous variables： $x_1,\dots,x_D$ , 统一用vector $\mathbf{x}$ 来表示，那么我们可以定义联合概率密度函数： $p(\mathbf{x})=p(x_1,\dots,x_D)$ , 且对于落在 $\delta \mathbf{x}$ 大小的区间内的vector $\mathbf{x}$ 来说，生成该vector的概率为 $p(\mathbf{x})\delta \mathbf{x}$ , 此时该多元概率密度函数应当满足：
  $p(\mathbf{x})\geq0\ \ \ \ \ \ (1.29)\\ \int p(\mathbf{x})\text{d}\mathbf{x}=1\ \ \ \ \ \ (1.30)$
  其中式(1.30)中的积分将遍历 $\mathbf{x}$ 所在的空间，并进行积分。
  此外，sum rule以及product rule也可以在continuous variable上进行apply：
  $p(x)=\int p(x,y)\text{d}y\ \ \ \ \ \ (1.31)\\ p(x,y)=p(y|x)p(x)\ \ \ \ \ \ (1.32)$

1.2.2 Expectations and covariances

Probability的一个作用是计算得到某一个特定函数的weighted sum。函数f(x)在概率p(x)下的weighted sum称为该函数的期望，记作 $\mathbb{E}[f]$ ，在离散随机分布的情况下有：
$\mathbb{E}[f]=\sum_xp(x)f(x)\ \ \ \ \ \ (1.33)$
在连续随机分布下，p(x)将选择为该概率分布的概率密度函数：
$\mathbb{E}[f]=\int p(x)f(x)\text{d}x\ \ \ \ \ \ (1.34)$

假如我们只有从某一个概率分布（无论是离散还是连续的）中sample出来的N个点，我们该如何估计函数f(x)在p(x)下的期望呢？此时的计算公式非常简单：
$\mathbb{E}[f]\simeq\frac{1}{N}\sum_{n=1}^Nf(x_n)\ \ \ \ \ \ (1.35)$

假设我们的函数f具有两个变量x,y, 为了单纯求f(x,y)关于p(x)的期望，我们这样表示：
$\mathbb{E}_x[f(x,y)]\ \ \ \ \ \ (1.36)$
此时，式(1.36)就仅仅是关于y的函数了。

而假设我们所研究的函数f需要关于分布p(x|y)进行期望求得时，我们可以将该期望表示如下：
$\mathbb{E}_x[f|y]=\sum_xp(x|y)f(x)\ \ \ \ \ \ (1.37)$
该期望被称为“条件期望”（对于连续条件分布下的公式同样可以类比得出）。

关于f(x)的方差定义如下：
$\text{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^2\right]\ \ \ \ \ \ (1.38)$
该量用以描述f(x)相对于其期望 $\mathbb{E}[f(x)]$ 的variability。
对于上述期望公式，我们可以进一步推导如下：
$\text{var}[f]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2\ \ \ \ \ \ (1.39)$

特别的，当f(x)=x时，有：
$\text{var}[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2\ \ \ \ \ \ (1.40)$

对于两个随机变量x和y，二者之间的covariance为：
$\text{cov}[x,y]=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}]\\ =\mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\mathbb{E}[y]\ \ \ \ \ \ (1.41)$
而对于两个随机向量 $\mathbf{x}$ 和 $\mathbf{y}$ ，有：
$\text{cov}[\mathbf{x}, \mathbf{y}]=\mathbb{E}_{\mathbf{x}, \mathbf{y}}[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\{\mathbf{y}^T-\mathbb{E}[\mathbf{y}^T]\}]\\ =\mathbb{E}_{x,y}[\mathbf{x}\mathbf{y}^T]-\mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{y}^T]\ \ \ \ \ \ (1.42)$
并且，当vector $\mathbf{x}$ 本身之间进行cov运算时，我们通常进行简写： $\text{cov}[\mathbf{x}]\equiv \text{cov}[\mathbf{x},\mathbf{x}]$ 。

1.2.3 Bayesian probabilities

我们在很多时候都需要对各式各样的事物进行分析，分析其发生的概率。如果我们能够本身进行多次实验（例如本章中的取小球例子）的话，我们就可以通过大量实验，对各类情况的结果进行统计，并根据当数据量趋于无穷大时，频率分布将收敛于概率分布的特点，对概率分布进行直接估计。这是频率学派的观点。
然而，又有很多时候，我们根本没法得到很多的数据（正如书中所举的例子：月球之前是否有环绕太阳的可能性？北极冰帽有多大可能性在本世纪末消失？）。这些例子都几乎不能做反复试验，因此频率学派的方法在这里失去了作用。
但是，虽然我们无法预知北极冰帽完全消融的时间，但是我们可以对冰消融的速度进行一个初步的估计。假设此时我们从卫星传回地球的信息中得到了一些新的相关信息，这些信息或多或少会与我们之前的估计有所不同，因此，我们可以根据这些新的信息，对我们之前所做的估计进行修正。由此，我们可以根据我们在修正后的估计，来进行最优的决策。这就是贝叶斯的角度对probability的解释。

我们自然可以使用频率学派的观点，仅将第1.1节中的 $t_n$ 视为variable。但此时，我们需要对参数 $\mathbf{w}$ 的uncertainty进行量化。所以我们需要从贝叶斯的观点去运用probability theory。
此时，回想到在书中，我们在得知取到红球之后，所选择的可能颜色的盒子概率分布也相应地发生了改变。此时，我们再结合Bayes’ theorem本身进行分析，我们可以得到Bayes’ theorem的另外一个作用：它通过吸纳observed data所提供的evidence，将prior probability转换为posterior probability。
联系到参数 $\mathbf{w}$ 上，我们首先对该参数作以初步假设： $p(\mathbf{w})$ ，即为该参数的prior probability，然后在得到data $\mathcal{D}=\{t_1, t_2, ..., t_N\}$ 之后，我们可以通过 $p(\mathbf{w}|\mathcal{D})$ ，将这些observed data加入进模型，从而得到该参数的posterior probability：
$p(\mathbf{w}|\mathcal{D})=\frac{p(\mathcal{D}|\mathbf{w})p(\mathbf{w})}{p(\mathcal{D})}\ \ \ \ \ \ (1.43)$
其中， $p(\mathcal{D}|\mathbf{w})$ 称为“likelihood”，它是参数 $\mathbf{w}$ 的函数，它使用observed data $\mathcal{D}$ 对当前 $\mathbf{w}$ 下生成数据的可能性进行评估。但要注意的是，likelihood并非是关于 $\mathbf{w}$ 的分布。
而又由于 $p(\mathcal{D})$ 是用于normalization的constant，因此我们可以得到如下关系：
$\text{posterior}\propto \text{likelihood}\times \text{prior}\ \ \ \ \ \ (1.44)$
且上式中的三项均为参数 $\mathbf{w}$ 的函数。
而Bayes’ theorem中的denominator可以表示为：
$p(\mathcal{D})=\int p(\mathcal{D}|\mathbf{w})p(\mathbf{w})\text{d}\mathbf{w}\ \ \ \ \ \ (1.45)$