PRML Chapter 04 Linear Models for Classification

最新推荐文章于 2020-10-05 10:27:55 发布

zhoudinglive

最新推荐文章于 2020-10-05 10:27:55 发布

阅读量516

点赞数

分类专栏： PRML读书笔记

本文链接：https://blog.csdn.net/carpentercc/article/details/82799919

版权

PRML读书笔记专栏收录该内容

9 篇文章 2 订阅

订阅专栏

PRML Chapter 04 Linear Models for Classification

本章的内容主要围绕在基础的线性分类模型上，从判别式模型(discriminative models)的角度介绍了最小平方和、Fisher判别式、感知机三种常用方法，以及logistic regression(虽然叫回归，但是是一种分类算法)等；从生成式模型(generative models)则主要介绍了其推导过程。最后介绍了拉普拉斯近似方法和logistic regression的贝叶斯形式。

Discriminant Functions

判别式模型与生成式模型在Chapter 01 Introduction中进行了相应的描述，其本质上的区别在于其训练步骤，对于贝叶斯定理，

$\begin{aligned} p(\omega|\mathcal{D}) &= \frac{p(\mathcal{D}|\omega)p(\omega)}{\int p(\mathcal{D}|\omega)p(\omega)} \propto p(\mathcal{D}|\omega)p(\omega) \end{aligned} \tag{4.1}$

式(4.1)中， $\omega$ 表示需要训练的参数， $\mathcal{D}$ 表示训练集，则有

判别式模型：直接运用数据对 $p(\omega|\mathcal{D})$ 进行估计，而忽略掉所有的概率的表示；
生成式模型：先计算 $p(\omega)$ 、 $p(\mathcal{D}|\omega)$ ，再利用其乘积获得后验分布 $p(\omega|\mathcal{D})$ 。

对于线性分类模型而言，继承了Chapter 03 Linear Models for Regression中的线性基函数模型(linear basis function model)，然而，对于函数的输出是一个连续值，而分类要求的是离散值，因此，我们需要一个函数 $f$ 来将连续值映射到离散值从而完成相应的分类。

$f(\boldsymbol{\omega}^T\boldsymbol{x} + \omega_0) \tag{4.2}$

其中函数的参数即为线性基函数模型，与Chapter 03 Linear Models for Regression中保持一致。一般地，我们称函数 $f$ 为激活函数(activation function)，其反函数被称为链接函数(link function)。

决策面指将样本点分开的边界，被定义为 $y (x) = c o n s t$ ，即 $\boldsymbol{\omega}^T\boldsymbol{x} + \omega_0 = const$ ，由此可知决策面是输入 $\boldsymbol{x}$ 的线性函数，即时激活函数为非线性的。

本节将主要介绍一些常用的判别式模型方法(Discriminant Functions)。

a. Two classes & Multiple classes

根据分类的目标具有两类和多类的不同，可以把模型简单的分为二分类和多分类。

two classes

对于二分类的情况，我们可以简单的令线性判别模型为输入的线性函数，

$\boldsymbol{\omega}^T\boldsymbol{x} + \omega_0 \tag{4.3}$

其中， $\boldsymbol{\omega}$ 被称为权值向量(weight vector)， $\omega_0$ 被称为偏置，偏置的相反数有时被称为阈值(threshold)。

定理4.1：权值向量 $\boldsymbol{\omega}$ 总是与决策面中的任何向量正交，且权值向量指示了决策面的方向。
证明：我们可以令判别函数 $y (x) > 0$ 与 $y (x) < 0$ 来区分类别 $\mathcal{C}_1$ 和 $\mathcal{C}_2$ ，那么决策面可以被定义为 $y (x) = 0$ 。对于决策面中的任意两个点 $x_A$ 、 $x_B$ ，则有 $y(x_A) = 0$ 、 $y(x_B) = 0$ ，因此有，

$y(x_A) - y(x_B) = \boldsymbol{\omega}^T(x_A - x_B) = 0 \tag{4.4}$

显然地，定理4.1成立。其中，我们可以利用高中知识知道，点到直线，点到平面的距离，可以通过下式衡量，

$\frac{y(\boldsymbol{x})}{||\boldsymbol{\omega}||} \tag{4.5}$

如果，我们一如一个额外的虚“输入” $x_0=1$ ，这会使得记号更简洁，比较方便。引入“虚”输入后，我们定义 $\tilde{\boldsymbol{\omega}}=(\omega_0, \boldsymbol{\omega})$ 以及 $\tilde{\boldsymbol{x}}=(x_0, \boldsymbol{x})$ ，这样我们可以获得式(4.3)的简化形式，

$y(\boldsymbol{x}) = \tilde{\boldsymbol{\omega}}^T\tilde{\boldsymbol{x}} \tag{4.6}$

在式(4.6)所示的情况中，决策面是一个 $D$ 维的超平面，并且这个超平面会穿过 $D + 1$ 维扩展输入空间的原点。

multiple classes

考虑将二分类的情况扩展到更高维度的情况( $K > 2$ )，直觉上地，我们可以很快的发现两种方法：

一对其他(one-versus-the-rest)：考虑使用 $K - 1$ 个分类器，每个分类器用于解决一个二分类问题，把属于类别 $\mathcal{C}_k$ 和不属于那个类别的点分开。这一方法的局限性在于产生了输入空间中无法分类的区域，如下图左侧所示，绿色区域就因为一对其他的方式无法得到有效的分类。
一对一(one-versus-one)：另一种方法考虑引入 $\frac{K(K-1)}{2}$ 个二元判别函数，对每一对类别都设置一个判别函数，这样，每个点的类别根据这些判别函数中的大多数输出类别确定。这一方法的局限性在于其也会造成输入空间中无法分类的区域，如下图右侧所示，因为一对一的方式，我们没有对绿色区域进行训练，因此无法分辨。

为了解决以上的两个问题，我们可以采取一种 $K$ 类判别函数的，这个 $K$ 类判别函数由 $K$ 个线性函数组成，形式为，

$y_k(\boldsymbol{x}) = \boldsymbol{\omega}_k^T \boldsymbol{x} + \omega_{k0} \tag{4.7}$

定义对于点 $\boldsymbol{x}$ ，如果对于所有的 $\neq k$ 都有 $y_k(\boldsymbol{x}) > y_j(\boldsymbol{x})$ ，那么就把它分到 $\mathcal{C}_k$ 。于是，显然地，对于类 $\mathcal{C}_k$ 和 $\mathcal{C}_j$ 之间的决策面为 $y_k(\boldsymbol{x}) = y_j(\boldsymbol{x})$ ，并且对应于一个 $(D - 1)$ 维超平面，形式为，

$(\boldsymbol{\omega}_k - \boldsymbol{\omega}_j)^T\boldsymbol{x}+(\omega_{k0}-\omega_{j0})=0 \tag{4.8}$

接下来介绍三种学习线性判别函数的参数的方法，即基于最小平方的方法，Fisher线性判别函数，以及感知器算法。

b. Least squares for classification

定义对于每个类别 $\mathcal{C}_k$ 由线性模型描述，即，

$y_k(\boldsymbol{x})=\boldsymbol{\omega}_k^T\boldsymbol{x}+\omega_{k0} \tag{4.9}$

其中 $k = 1, 2, . . ., K$ 。使用向量记号，我们可以将变量都聚集在一起，即

$\boldsymbol{y}(\boldsymbol{x}) = \tilde{\boldsymbol{W}}^T\tilde{\boldsymbol{x}} \tag{4.10}$

其中 $\tilde{\boldsymbol{W}}$ 是一个矩阵，第 $k$ 列由 $D + 1$ 维向量 $\tilde{\boldsymbol{\omega}}_k = (\omega_{k0}, \boldsymbol{\omega}_k^T)$ 组成， $\tilde{\boldsymbol{x}}$ 是对应的增广输入向量 $(1,\boldsymbol{x}^T)^T$ ，它带有需输入 $x_0 = 1$ 。

由式(4.10)可知，我们的主要目标是确定参数矩阵 $\tilde{\boldsymbol{W}}$ 。考虑一个训练数据集 $\{ \boldsymbol{x}_n, \boldsymbol{t}_n \}$ ，其中 $n = 1, 2, . . ., N$ ，定义矩阵 $\boldsymbol{T}$ ，它的第 $n$ 行是向量 $\boldsymbol{t}_n^T$ ；定义矩阵 $\tilde{\boldsymbol{X}}$ ，它的第 $n$ 行是 $\tilde{\boldsymbol{x}}_n^T$ 。由此，平方和误差函数可以被定义为，

$E_D(\tilde{\boldsymbol{W}})=\frac{1}{2} \textbf{Tr} \{ (\tilde{\boldsymbol{X}}\tilde{\boldsymbol{W}}-\boldsymbol{T})^T(\tilde{\boldsymbol{X}}\tilde{\boldsymbol{W}}-\boldsymbol{T}) \} \tag{4.12}$

令式(4.11)关于 $\tilde{\boldsymbol{W}}$ 的导数为零，可以得到 $\tilde{\boldsymbol{W}}$ 的解，形式为，

$\tilde{\boldsymbol{W}} = (\tilde{\boldsymbol{X}}^T\tilde{\boldsymbol{X}})^{-1}\tilde{\boldsymbol{X}}^T\boldsymbol{T}=\tilde{\boldsymbol{X}}^{\dagger}\boldsymbol{T} \tag{4.13}$

其中 $\tilde{\boldsymbol{X}}^{\dagger}$ 是矩阵 $\tilde{\boldsymbol{W}}$ 的伪逆矩阵。由式(4.10)和式(4.13)，我们可以得到判别函数，

$y(\boldsymbol{x}) = \tilde{\boldsymbol{W}}^T\tilde{\boldsymbol{x}}=\boldsymbol{T}^T(\tilde{\boldsymbol{X}}^{\dagger})^T\tilde{\boldsymbol{x}} \tag{4.13}$

最小平方和方法的局限性：

对于离群点缺乏鲁棒性。这一点对于回归问题和分类问题都是具有的，由于最小平方和误差函数往往会惩罚“过于正确”的预测，导致一些额外的离群点对决策边界的位置产生极大的改变，使得结果出现偏差；
无法很好的拟合非高斯分布的目标向量。由于最小平方方法对应于高斯条件分布假设下的最大似然法，因此对于目标向量的概率分布不是高斯分布的情况，不能够很好的拟合。

c. Fisher’s discriminant

Fisher判别式(Fisher’s discriminant)可以看作是一种降维方法，通过将 $D$ 维输入向量降低到 $D - 1$ 维或者更低维，然后再对其进行分类处理。例如，假设我们有一个 $D$ 维输入向量 $\boldsymbol{x}$ ，则可以通过式(4.14)将其投影到 $D - 1$ 维的空间中去，

$\boldsymbol{\omega}^T\boldsymbol{x} \tag{4.14}$

Fisher判别式的核心思想与软件开发中的“高内聚，低耦合”是极其相似的。通过式(4.14)的降维，我们需要在低维空间中将各个类别区分开来，这就需要各个类别的内部方差尽量小，而各类别之间区别尽量大。

首先，考虑一个二分类问题，这个问题中有 $\mathcal{C}_1$ 类 $N_1$ 个点以及 $\mathcal{C}_2$ 类的 $N_2$ 个点，因此两类的均值向量为，

$\boldsymbol{m}_1 = \frac{1}{N_1}\sum_{n \in \mathcal{C}_1}\boldsymbol{x}_n,\ \ \ \boldsymbol{m}_2 = \frac{1}{N_2}\sum_{n \in \mathcal{C}_2}\boldsymbol{x}_n \tag{4.15}$

一种简单的考虑是，对于投影在 $\boldsymbol{\omega}$ 空间上的样本点，利用其均值的距离度量其类别的区分度，因此，我们的目标可以变为最大化其均值投影后的距离，

$m_2 - m_1 = \boldsymbol{\omega}^T(\boldsymbol{m}_2-\boldsymbol{m}_1) \tag{4.16}$

其中， $m_k=\boldsymbol{\omega}^T\boldsymbol{m}_k$ 是来自类别 $\mathcal{C}_k$ 的投影数据的均值。其中对 $\boldsymbol{\omega}$ 进行限制，即 $\sum_i \omega_i^2 = 1$ 。利用均值衡量了类间间距后，我们还需要使得类内方差，

$s_k^2 = \sum_{n \in \mathcal{C}_k} (y_n - m_k)^2 \tag{4.17}$

式(4.17)表示类别 $\mathcal{C}_k$ 的数据经过变换后的类内方差，其中 $y_n = \boldsymbol{\omega}^T\boldsymbol{x}_n$ 。对于二分类问题，我们可以把整个数据集总的类内方差定义为 $s_1^2+s_2^2$ 。于是Fisher判别式对于二分类的定义如下，

$\begin{aligned} J(\boldsymbol{\omega}) &= \frac{(m_2-m_1)^2}{s_1^2+s_2^2}=\frac{\boldsymbol{\omega}^T\boldsymbol{S}_B\boldsymbol{\omega}}{\boldsymbol{\omega}^T\boldsymbol{S}_W\boldsymbol{\omega}} \end{aligned} \tag{4.18}$

其中，

$\boldsymbol{S}_B = (\boldsymbol{m}_2-\boldsymbol{m}_1)(\boldsymbol{m}_2-\boldsymbol{m}_1)^T \tag{4.19}$

$\boldsymbol{S}_W = \sum_{n \in \mathcal{C}_1}(\boldsymbol{x}_n-\boldsymbol{m}_1)(\boldsymbol{x}_n-\boldsymbol{m}_1)^T + \sum_{n \in \mathcal{C}_2}(\boldsymbol{x}_n-\boldsymbol{m}_2)(\boldsymbol{x}_n-\boldsymbol{m}_2)^T \tag{4.20}$

式(4.18)对 $\boldsymbol{\omega}$ 求导，我们发现 $J(\boldsymbol{\omega})$ 取最大值的条件是，

$(\boldsymbol{\omega}^T\boldsymbol{S}_B\boldsymbol{\omega})\boldsymbol{S}_W\boldsymbol{\omega}=(\boldsymbol{\omega}^T\boldsymbol{S}_W\boldsymbol{\omega})\boldsymbol{S}_B\boldsymbol{\omega} \tag{4.21}$

忽略式(4.21)中的标量 $(\boldsymbol{\omega}^T\boldsymbol{S}_B\boldsymbol{\omega})$ 和 $(\boldsymbol{\omega}^T\boldsymbol{S}_W\boldsymbol{\omega})$ ，我们可以得到，

$\boldsymbol{\omega} \propto \boldsymbol{S}_W^{-1}(\boldsymbol{m}_2-\boldsymbol{m}_1) \tag{4.22}$

可以看到，当 $\boldsymbol{S}_W^{-1} \propto I$ 时( $I$ 为单位矩阵)， $\boldsymbol{\omega}$ 正比于类均值的差。对于二分类问题，Fisher判别式可以看作最小平方的一个特例；对于多分类问题，Fisher判别式具有与二分类类似的形式。

d. The perceptron algorithm

感知器算法(the perceptro algorithm)主要用于解决传统误差函数不连续导致的参数更新苦难。例如，对于一般线性模型(4.23)，

$y(\boldsymbol{x}) = f(\boldsymbol{\omega}^T\boldsymbol{\phi}(\boldsymbol{x})) \tag{4.23}$

其中，定义非线性激活函数 $f$ 是一个阶梯函数，形式为，

$\begin{cases} +1,\ \ a \geq 0 \\ -1,\ \ a \leq 0 \end{cases} \tag{4.24}$

很明显，如果使用传统的最小化误分类误差函数，参数 $\boldsymbol{\omega}$ 的更新将会是不连续的，使用感知器准则(perceptron criterion)，我们将问题重新定义为，找到权值向量 $\boldsymbol{\omega}$ ，使得对于类别 $\mathcal{C}_1$ 中的样本点 $\boldsymbol{x}_n$ 有 $\boldsymbol{\omega}^T\boldsymbol{\phi}(\boldsymbol{x}_n) > 0$ ，对于类别 $\mathcal{C}_2$ 中的样本点 $\boldsymbol{x}_n$ 有 $\boldsymbol{\omega}^T\boldsymbol{\phi}(\boldsymbol{x}_n) < 0$ 。即寻找权值向量 $\boldsymbol{\omega}$ ，使得 $\boldsymbol{\omega}^T\boldsymbol{\phi}(\boldsymbol{x}_n) t_n > 0$ 。

由此，感知器准则在正确分类的情况下误差为0，而在错分类的情况下试图最小化 $-\boldsymbol{\omega}^T\boldsymbol{\phi}(\boldsymbol{x}_n) t_n$ ，因此，通过感知器准则获得的误差函数定义为式(4.25)，其中 $\boldsymbol{\phi}_n = \boldsymbol{\phi}(\boldsymbol{x}_n)$ ， $\mathcal{M}$ 表示所有误分类样本的集合，

$E_P(\boldsymbol{\omega}) = - \sum_{n \in \mathcal{M}} \boldsymbol{\omega}^T\boldsymbol{\phi}_nt_n \tag{4.25}$

由式(4.25)，利用随机梯度下降算法，可以得到权值向量 $\boldsymbol{\omega}$ 的迭代公式为，

$\boldsymbol{\omega}^{(\tau+1)} = \boldsymbol{\omega}^{(\tau)} - \eta \nabla E_P(\boldsymbol{\omega}) = \boldsymbol{\omega}^{(\tau)} + \eta \boldsymbol{\phi}_nt_n \tag{4.26}$

感知器算法的性质：

感知器学习规则并不保证在每个阶段都会见效整体的误差函数；
如果训练数据线性可分，那么感知器算法可以保证在有限步骤内找到一个精确解；
即使数据是线性可分的，也可能有多个解，并且最终哪个解会被找到依赖于参数的初始化以及数据点出现的顺序；
一个误分类样本对于误差函数的贡献会逐渐减小，这可以由式(4.26)的推导式(4.27)看出来，

$-\boldsymbol{\omega}^{(\tau+1)T}\boldsymbol{\phi}_nt_n = -\boldsymbol{\omega}^{(\tau)T}\boldsymbol{\phi}_nt_n - (\boldsymbol{\phi}_nt_n)^T\boldsymbol{\phi}_nt_n < -\boldsymbol{\omega}^{(\tau)T}\boldsymbol{\phi}_nt_n \tag{4.27}$

感知器算法的局限性：

感知器算法无法提供概率形式的输出；
感知器算法无法直接推广到 $K > 2$ 的情形；
感知器算法基于固定基函数的线性组合，这一点与第三章和第四章中的所有模型一致。

Probabilistic Generative Models

在前边的内容中介绍了生成式模型，主要通过先验分布和后验分布的乘积得到最终的判别式。

对于二分类的情况，类别 $\mathcal{C}_1$ 的后验概率可以写为，

$\begin{aligned} p(\mathcal{C}_1|\boldsymbol{x}) &= \frac{p(\boldsymbol{x}|\mathcal{C}_1)p(\mathcal{C}_1)}{p(\boldsymbol{x}|\mathcal{C}_1)p(\mathcal{C}_1)+p(\boldsymbol{x}|\mathcal{C}_2)p(\mathcal{C}_2)} \\ &= \frac{1}{1+exp(-a)} = \sigma(a) \end{aligned} \tag{4.28}$

其中，我们定义了 $a$ 为，

$\frac{p(\boldsymbol{x}|\mathcal{C}_1)p(\mathcal{C}_1)}{p(\boldsymbol{x}|\mathcal{C}_2)p(\mathcal{C}_2)} \tag{4.29}$

$\sigma(a)$ 是logistic sigmoid函数，定义为，

$\sigma(a) = \frac{1}{1+exp(-a)} \tag{4.30}$

式(4.30)有时也被称为挤压函数，因为它把整个实数轴映射到了一个有限的空间中，这一函数有着重要的重要，其满足式(4.31)的对称性，

$\sigma(-a)=\frac{1}{1+exp(-a)} \tag{4.31}$

logistic sigmoid函数的反函数为，

$(\frac{\sigma}{1-\sigma}) \tag{4.32}$

该式被称为 $l o g i t$ 函数，他表示两类的概率壁纸的对数 $ln[\frac{p(\mathcal{C}_1|x)}{p(\mathcal{C}_2|x)}]$ ，也被称为log odds函数。

对于 $K > 2$ 的多分类情况，我们有每一个类别 $\mathcal{C}_k$ 的后验概率分布，

$\begin{aligned} p(\mathcal{C}_k|\boldsymbol{x}) &= \frac{p(\boldsymbol{x}|\mathcal{C}_k)p(\mathcal{C}_k)}{\sum_j p(\boldsymbol{x}|\mathcal{C}_j)p(\mathcal{C}_j)} \\ &= \frac{exp(a_k)}{\sum_j exp(a_j)} \end{aligned} \tag{4.33}$

其中， $a_k$ 被定义为，

$a_k = ln p(\boldsymbol{x}|\mathcal{C}_k)p(\mathcal{C}_k) \tag{4.34}$

式(4.33)也可以被看作是softmax函数，因为它是max函数的一个平滑版本，这是因为，如果对于所有的 $\neq k$ 都有 $a_k \gg a_j$ ，那么 $p(\mathcal{C}_k|\boldsymbol{x}) \simeq 1$ 且 $p(\mathcal{C}_j | \mathcal{x}) \simeq 0$ 。

考虑类条件概率密度形式，一般分为连续型随机变量和离散型随机变量，接下来会依次讨论。

a. continuous inputs

对于类条件概率密度的输入为连续型随机变量的情形，我们假设类条件概率密度为高斯分布，然后求解出相应的后验概率的形式。首先，我们假定所有的类别的协方差矩阵相同，这样类别的 $\mathcal{C}_k$ 的类条件概率为，

$p(\boldsymbol{x}|\mathcal{C}_k)=\frac{1}{(2\pi)^{\frac{D}{2}}}\frac{1}{|\mathbf{\Sigma}|^{\frac{1}{2}}}exp\{ -\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_k)^T\mathbf{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_k) \} \tag{4.35}$

对于二分类的情况，考虑式(4.28)和(4.29)，可以得到，

$p(\mathcal{C}_1|\boldsymbol{x})=\sigma(\boldsymbol{\omega}^T\boldsymbol{x}+\omega_0) \tag{4.36}$

其中，

$\boldsymbol{\omega}=\mathbf{\Sigma}^{-1}(\boldsymbol{\mu}_1-\boldsymbol{\mu}_2) \tag{4.37}$

$\omega_0 = -\frac{1}{2}\boldsymbol{\mu}_1^T\mathbf{\Sigma}^{-1}\boldsymbol{\mu}_1 + \frac{1}{2}\boldsymbol{\mu}_2^T\mathbf{\Sigma}^{-1}\boldsymbol{\mu}_2 + ln \frac{p(\mathcal{C}_1)}{p(\mathcal{C}_2)} \tag{4.38}$

显然地，最后求得的决策边界对应于后验概率 $p(\boldsymbol{C}_k|\boldsymbol{x})$ 为常数的决策面，可以看出决策边界为输入空间的线性函数。由于先验概率密度 $p(\mathcal{C}_k)$ 只出现在偏置参数 $\omega_0$ 中，因此先验的改变的效果是平移决策边界，即平移后验概率的中的常数轮廓线。

对于 $K > 2$ 的多分类情况，我们定义，

$a_k(\boldsymbol{x})=\boldsymbol{\omega}_k^T\boldsymbol{x}+\omega_{k0} \tag{4.39}$

其中，

$\boldsymbol{\omega}_k = \mathbf{\Sigma}^{-1}\boldsymbol{\mu}_k\tag{4.40}$

$\omega_{k0}=-\frac{1}{2}\boldsymbol{\mu}_k^T\mathbf{\Sigma}^{-1}\boldsymbol{\mu}_k+ln p(\mathcal{C}_k) \tag{4.41}$

由于式(4.29)的定义以及假设式(4.35)协方差都相同，我们可以看到，对于二分类和多分类， $a_k$ 都是 $x$ 的线性函数。

b. maximum likelihood solution

对连续型随机变量，利用最大似然法获取其参数值。对于二分类的情况，假设先验 $p(\mathcal{C}_1)=\pi$ 对应于目标值 $t_n=1$ ，则对类别 $\mathcal{C}_1$ 有，

$p(\boldsymbol{x}_n,\mathcal{C}_1)=p(\mathcal{C}_1)p(\boldsymbol{x}_n|\mathcal{C}_1)=\pi \mathcal{N}(\boldsymbol{x}_n|\boldsymbol{\mu}_1,\mathbf{\Sigma}) \tag{4.42}$

假设先验 $p(\mathcal{C}_2)=1- \pi$ 对应于目标值 $t_n=0$ ，则对于类别 $\mathcal{C}_2$ 有，

$p(\boldsymbol{x}_n,\mathcal{C}_2)=p(\mathcal{C}_2)p(\boldsymbol{x}_n|\mathcal{C}_2)=(1 -\pi) \mathcal{N}(\boldsymbol{x}_n|\boldsymbol{\mu}_2,\mathbf{\Sigma}) \tag{4.43}$

于是似然函数如式(4.44)定义，其中 $\textbf{t}=(t_1,...,t_N)$ ，表示 $N$ 个目标值的集合。

$p(\textbf{t},\boldsymbol{X}|\pi,\boldsymbol{\mu}_1,\boldsymbol{\mu}_2,\mathbf{\Sigma}) = \prod_{n=1}^N[\pi \mathcal{N}(\boldsymbol{x}_n|\boldsymbol{\mu}_1,\mathbf{\Sigma})]^{t_n}[(1 -\pi) \mathcal{N}(\boldsymbol{x}_n|\boldsymbol{\mu}_2,\mathbf{\Sigma})]^{1-t_n} \tag{4.44}$

于是对于参数 $\pi、\boldsymbol{\mu}_1、\boldsymbol{\mu}_2、\mathbf{\Sigma}$ ，其分别的对应的最大似然解如下所示，

$\pi = \frac{1}{N}\sum_{n=1}^N t_n = \frac{N_1}{N_1+N_2} \tag{4.45}$

$\boldsymbol{\mu}_1=\frac{1}{N_1}\sum_{n=1}^N t_n \boldsymbol{x}_n \tag{4.46}$

$\boldsymbol{\mu}_2=\frac{1}{N_2}\sum_{n=1}^N(1-t_n)\boldsymbol{x}_n \tag{4.47}$

对于协方差的最大似然解，选出式(4.44)与 $\mathbf{\Sigma}$ 相关的项，则有
$-\frac{N}{2}ln|\mathbf{\Sigma}|-\frac{N}{2}\textbf{Tr}\{\mathbf{\Sigma}^{-1}\boldsymbol{S}\} \tag{4.48}$

其中，我们定义，

$\boldsymbol{S}=\frac{N_1}{N}\boldsymbol{S}_1+\frac{N_1}{N}\boldsymbol{S}_2 \tag{4.49}$

$\boldsymbol{S}_1=\frac{1}{N_1}\sum_{n\in \mathcal{C}_1}(\boldsymbol{x}_n-\boldsymbol{\mu}_1)(\boldsymbol{x}_n-\boldsymbol{\mu}_1)^T \tag{4.50}$

$\boldsymbol{S}_2=\frac{1}{N_2}\sum_{n\in \mathcal{C}_2}(\boldsymbol{x}_n-\boldsymbol{\mu}_2)(\boldsymbol{x}_n-\boldsymbol{\mu}_2)^T \tag{4.51}$

对于多分类的情况也是类似地。

c. discrete features

考虑离散型随机变量作为输入，对于 $D$ 维输入值 $x$ ，我们认为其每一个维度即为一个特征值 $x_i$ ，并且对应于每一个类别 $\mathcal{C}_k$ 有均值 $\mu_{ki}$ ，因此，类条件分布的形式为，

$p(\boldsymbol{x}|\mathcal{C}_k)=\prod_{i=1}^D \mu_{ki}^{x_i}(1-\mu_{ki})^{1-x_i} \tag{4.52}$

带入公式(4.39)我们可以得到

$a_k(\boldsymbol{x})=\sum_{i=1}^D\{ x_i \textbf{ln}\mu_{ki} + (1-x_i)\textbf{ln}(1-\mu_{ki})\} + \textbf{ln}p(\mathcal{C}_k) \tag{4.53}$

由此，通过式(4.52)的条件概率分布和式(4.53)的定义，类似连续型随机变量，我们可以利用后验分布获得离散型随机变量的后验分布。

d. exponential family

指数族分布，主要是可以利用通用的指数形式表达一类模型的特征，其对于输入 $\boldsymbol{x}$ 的定义为，

$p(\boldsymbol{x}|\boldsymbol{\lambda}_k)=h(\boldsymbol{x})g(\boldsymbol{\lambda}_k)exp\{\boldsymbol{\lambda}_k\boldsymbol{\mu}(\boldsymbol{x})\} \tag{4.54}$

我们可以考虑 $\boldsymbol{\mu}(\boldsymbol{x})=\boldsymbol{x}$ 这种分布，并且引入缩放因子，因此可以得到一个指数族的子集，

$p(\boldsymbol{x}|\boldsymbol{\lambda}_k,s)=\frac{1}{s}h(\frac{1}{s}\boldsymbol{x})g(\boldsymbol{\lambda}_k)exp\{\frac{1}{s}\boldsymbol{\lambda}_k^T\boldsymbol{x}\} \tag{4.55}$

对于而分类问题，引入类条件概率(4.55)，可得，

$a(\boldsymbol{x}) = \frac{1}{s}(\boldsymbol{\lambda}_1-\boldsymbol{\lambda}_2)^T\boldsymbol{x}+ln g(\boldsymbol{\lambda}_1)-lng(\boldsymbol{\lambda}_2)+lnp(\mathcal{C}_1)-lnp(\mathcal{C}_2) \tag{4.56}$

对与多分类的情况，

$a_k(\boldsymbol{x})=\frac{1}{s}\boldsymbol{\lambda}_k^T\boldsymbol{x}+lng(\boldsymbol{\lambda}_k)+lnp(\mathcal{C}_k) \tag{4.57}$

可见式(4.56)和式(4.57)都是 $\boldsymbol{x}$ 的线性函数。

Probabilistic Discriminative Models

a. fixed basis functions

《PRML》在讨论概率判别式模型时，引入了固定的基函数数量，其主要目的有，

对输入空间进行非线性变换，使得后验概率更好计算。注意，在由基函数构建的特征空间 $\phi$ 中线性的，在原始 $x$ 空间不一定线性；在特征空间线性可分的类别，在原始空间中不一定线性可分；
使得其可以和第三章中的回归模型进行对比。

b. logistic regression

在生成式模型中，式(4.28)中对于类别 $\mathcal{C}_1$ 的后验概率，可以写成作用在特征向量 $\phi$ 的线性函数上的logistic sigmoid函数的形式，即，

$p(\mathcal{C}_1|\boldsymbol{\phi})=y(\boldsymbol{\phi})=\sigma(\boldsymbol{\omega}^T\boldsymbol{\phi}) \tag{4.58}$

上式被称为logistic regression，尽管叫做回归，但是却是一个分类模型。考虑一个 $M$ 维的特征空间 $\boldsymbol{\phi}$ ，这个模型需要学习的参数为 $M$ 个。而如果使用最大似然方法调节的高斯类条件概率密度，则需要 $2 M$ 个参数描述均值， $\frac{M(M+1)}{2}$ ，即算上先验分布的话总共需要 $\frac{M(M+5)}{2}+1$ 个参数。判别式模型的优势即是依赖更少的参数。

对于一个数据集 $\boldsymbol{\phi}_n、t_n$ ，其中 $t_n \in \{0, 1\}$ 且 $\boldsymbol{\phi}_n = \boldsymbol{\phi}(x_n)$ ，并且 $n = 1, . . ., N$ ，似然函数可以写成，

$p(\textbf{t}|\boldsymbol{\omega})=\prod_{n=1}^Ny_n^{t_n}\{1-y_n\}^{1-t_n} \tag{4.59}$

其中， $\textbf{t}=(t_1,...,t_N)^T$ 且 $y_n=p(\mathcal{C}_1|\boldsymbol{\phi}_n)$ 。采用负对数似然作为误差函数，则有，

$E(\boldsymbol{\omega})=-\textbf{ln}p(\textbf{t}|\boldsymbol{\omega})=-\sum_{n=1}^N\{t_n \textbf{ln}y_n+(1-t_n)\textbf{ln}(1-y_n)\} \tag{4.60}$

其中 $y_n=\sigma(a_n)$ 且 $a_n=\boldsymbol{\omega}^T\boldsymbol{\phi}_n$ ，则关于误差函数的梯度可以表示为，

$\nabla E(\boldsymbol{\omega})=\sum_{n=1}^N(y_n-t_n)\boldsymbol{\phi}_n \tag{4.61}$

通过式(4.61)即可以使用顺序算法，对权值向量进行更新，另外，可以看到式(4.61)中，数据点 $n$ 对于梯度的贡献为目标值和模型预测值之间的“误差” $y_n-t_n$ 与基函数向量 $\boldsymbol{\phi}_n$ 相乘。采用最大似然法得到的模型，往往具有以下两点局限性，

最大似然法对于线性可分的数据集会产生严重的过拟合现象；
最大似然法无法区分某个解由于另一个解，并且在实际应用中哪个解被找到依赖于优化算法的选择和参数的初始化。

c. iterative reweighted least squares

第三章中的回归模型，在高斯噪声模型的假设下，最大似然有解析解，这是因为对数似然函数为参数向量的 $\boldsymbol{\omega}$ ，对于logistic回归来说，不再有解析解，因为logistic sigmoid函数是一个非线性函数，因为引入了基函数 $\boldsymbol{\phi}$ 。因此需要对误差函数采取迭代的方法找到最小值。

采用基于Newton-Raphson迭代最优化框架，使用了对数似然函数的局部二次近似。为了最小化 $E(\boldsymbol{\omega})$ ，Newton-Raphson对权值的更新形式为，

$\boldsymbol{\omega}^{new}=\boldsymbol{\omega}^{old}-\boldsymbol{H}^{-1}\nabla E(\boldsymbol{\omega}) \tag{4.62}$

其中 $\boldsymbol{H}$ 是一个Hessian矩阵，它的元素由 $E(\boldsymbol{\omega})$ 关于 $\boldsymbol{\omega}$ 的二阶导数组成。

Newton-Raphson for regression model

考虑第三章中的回归模型，我们可以将误差函数的梯度和Hessian矩阵表示为，

$\nabla E(\boldsymbol{\omega}) = \sum_{n=1}^N(\boldsymbol{\omega}^T\boldsymbol{\phi}_n-t_n)\boldsymbol{\phi}_n=\mathbf{\Phi}^T\mathbf{\Phi}\boldsymbol{\omega}-\mathbf{\Phi}^T\textbf{t} \tag{4.63}$

$\boldsymbol{H}=\nabla \nabla E(\boldsymbol{\omega})=\sum_{n=1}^N \boldsymbol{\phi}_n\boldsymbol{\phi}_n^T=\mathbf{\Phi}^T\mathbf{\Phi} \tag{4.64}$

其中 $\mathbf{\Phi}$ 是 $N * M$ 的矩阵，第 $n$ 行表示 $\boldsymbol{\phi}_n^T$ 。于是，Newton-Raphson的更新形式为，

$\begin{aligned} \boldsymbol{\omega}^{new} &= \boldsymbol{\omega}^{old}-(\mathbf{\Phi}^T\mathbf{\Phi})^{-1}\{\mathbf{\Phi}^T\mathbf{\Phi}\boldsymbol{\omega}^{old}-\mathbf{\Phi}^T\textbf{t}\}\\ &=(\mathbf{\Phi}^T\mathbf{\Phi})^{-1}\mathbf{\Phi}^T\textbf{t} \end{aligned} \tag{4.65}$

这一结果与标准的最小平方解完全一致，由于误差函数 $E(\boldsymbol{\omega})$ 是 $\boldsymbol{\omega}$ 的二次函数，因此Newton-Raphson公式一步即得到精确的解析解。

Newton-Raphson for logistic regression

现在将Newton-Raphson应用到logistic回归模型上，根据公式(4.61)，我们可以得到，可以得到误差函数的梯度和Hessian矩阵，

$\nabla E(\boldsymbol{\omega}) = \sum_{n=1}^N (y_n-t_n)\boldsymbol{\phi}_n = \mathbf{\Phi}^T(\textbf{y}-\textbf{t}) \tag{4.66}$

$\boldsymbol{H}=\nabla \nabla E(\boldsymbol{\omega})=\sum_{n=1}^N y_n(1-y_n)\boldsymbol{\phi}_n\boldsymbol{\phi}_n^T=\mathbf{\Phi}^T\boldsymbol{R}\mathbf{\Phi} \tag{4.67}$

其中对角矩阵 $\boldsymbol{R}$ 为 $N * N$ 的矩阵，元素为，

$R_{nn}=y_n(1-y_n) \tag{4.68}$

这样logistic回归模型的Newton-Raphson更新公式就变为，

$\begin{aligned} \boldsymbol{\omega}^{new}&=\boldsymbol{\omega}^{old}-(\mathbf{\Phi}^T\boldsymbol{R}\mathbf{\Phi})^{-1}\mathbf{\Phi}^T(\boldsymbol{y}-\boldsymbol{t}) \\ &= (\mathbf{\Phi}^T\boldsymbol{R}\mathbf{\Phi})^{-1}\mathbf{\Phi}^T\boldsymbol{R}\textbf{z} \end{aligned} \tag{4.69}$

其中 $\textbf{z}$ 是一个 $N$ 维向量，元素为，

$\textbf{z} = \mathbf{\Phi}\boldsymbol{\omega}^{old}-\boldsymbol{R}^{-1}(\boldsymbol{y}-\boldsymbol{t}) \tag{4.70}$

由式(4.69)和式(4.65)进行对比，我们可以看出losgistic回归的更新公式相当于一组加权的最小平方问题。其中加权矩阵 $\boldsymbol{R}$ 依赖于参数 $\boldsymbol{\omega}$ ，因此每次更新 $\boldsymbol{\omega}$ 都会更新加权矩阵 $\boldsymbol{R}$ ，所以该方法被称为迭代重加权最小平方(iterative reweighted least squares)。

d. multiclass logistic regression

在第三章中，多类logistic回归的后验概率有线性函数softmax变换给出，即，

$p(\mathcal{C}_k|\boldsymbol{\phi})=y_k(\boldsymbol{\phi})=\frac{exp(a_k)}{\sum_j exp(a_k)} \tag{4.71}$

其中，“激活” $a_k$ 为，

$a_k = \boldsymbol{\omega}_k^T\boldsymbol{\phi} \tag{4.72}$

可以得到其负对数误差函数为，

$E(\boldsymbol{\omega}_1,...,\boldsymbol{\omega}_K) = -\textbf{ln}p(\boldsymbol{T}|\boldsymbol{\omega}_1,...,\boldsymbol{\omega}_K)=-\sum_{n=1}^N \sum_{k=1}^K t_{nk}\textbf{ln}y_{nk} \tag{4.73}$

式(4.73)为多分类问题的误差函数，对其参数向量 $\boldsymbol{\omega}_j$ 求偏导可以得到，

$\nabla_{\boldsymbol{\omega}_j} E(\boldsymbol{\omega}_1,...,\boldsymbol{\omega}_K)=\sum_{n=1}^N (y_{nj}-t_{nj})\boldsymbol{\phi}_n \tag{4.74}$

其中我们规定 $\sum_k t_{nk} = 1$ ，我们可以看到式(4.74)与二分类误差函数的梯度(4.61)一样，都是“误差” $y_{nj}-t_{nj}$ 与基函数 $\boldsymbol{\phi}_n$ 的乘积。

e. probit regression

显然地，我们目前为止所讨论的所有分类模型，最终求出的后验类概率都是作用在特征变量的线性函数上的logistic(或者softmax)变换，如式(4.58)和式(4.71)。然而，不是所有的类条件概率密度都有这样简单的后验概率函数形式。

考虑二分类的情况，使用一般的线性模型的框架，即

$\tag{4.75}$

其中 $a=\boldsymbol{\omega}^T\boldsymbol{\phi}_n$ 且 $f$ 为激活函数，然后按照下面的方式设置目标值，

$\begin{cases} t_n = 1,\ \ \ if\ a_n \geq \theta \\ t_n = 0,\ \ \ otherwise \end{cases} \tag{4.76}$

如果 $\theta$ 的值从概率密度 $p(\theta)$ 中抽取，那么对应的激活函数由累计分布函数给出，如果考虑 $p(\theta)$ 为零均值、单位方差的高斯概率密度，则有累积分布函数为，

$\mathbf{\Phi}(a) = \int_{-\infty}^a \mathcal{N}(\theta|0,1)d\theta \tag{4.77}$

上式被称为逆probit(inverse probit)函数。这一函数通常可以通过erf函数来计算，erf函数定义为，

$erf(a)=\frac{2}{\sqrt{\pi}}\int_0^a exp(-\theta^2)d\theta \tag{4.78}$

其与激活函数(4.77)的关系为，

$\mathbf{\Phi} (a)=\frac{1}{2}\{ 1 + erf(\frac{a}{\sqrt{\pi}}) \} \tag{4.79}$

基于式(4.77)、(4.79)作为激活函数的一般线性模型被称为probit回归。与logistic回归不同的是，在离群点的检测中，由于logistic sigmoid函数像 $e x p (- x)$ 那样渐进衰减，而probit激活函数像 $exp{-x}^2$ 那样渐进衰减，因此probit模型对于离群点会更加敏感。

The Laplace Approximation

拉普拉斯近似的目的是要找到一组连续变量上的概率密度的高斯近似，即对一个分布 $p (z)$ 找到其高斯近似分布 $q (z)$ ，一般地，首先需要找到分布 $p (z)$ 的众数 $z_0$ ，然后通过泰勒展开等方法得到高斯近似，例如，假设分布 $p (z)$ 的定义为，

$\frac{1}{Z}f(z) \tag{4.80}$

其中 $\int f(z) dz$ 为归一化系数。则由拉普拉斯近似得到的高斯近似分布 $q (x)$ 为，

$q(z)=(\frac{A}{2\pi})^{\frac{1}{2}}exp\{ -\frac{A}{2}(z-z_0)^2 \} \tag{4.81}$

其中，

$A=-\frac{d^2}{dz^2}\textbf{ln}f(z)|_{z=z_0} \tag{4.82}$

对于 $M$ 维的情况，有

$q(z)=\frac{|A|^{\frac{1}{2}}}{(2\pi)^{\frac{M}{2}}}exp\{ -\frac{1}{2}(z-z_0)^TA(z-z_0) \} = \mathcal{N}(z|z_0,A^{-1}) \tag{4.83}$

$-\nabla \nabla \textbf{ln}f(z)|_{z=z_0} \tag{4.84}$

式(4.81)和式(4.83)有良好定义的前提是，精度矩阵 $A$ 是正定的，这表明驻点 $z_0$ 一定是局部最大值，而不是一个最小值或者鞍点。

拉普拉斯近似的局限性：

由于其以高斯分布为基础，因此它只能直接应用于实值变量；
拉普拉斯框架完全依赖于真实概率分布在变量的某个具体位置上的性质，因此无法描述一些重要的全局属性。

Bayesian Logistic Regression

a. laplace approximation

贝叶斯logistic回归推断中，由于式(4.59)本身由一系列的logistic sigmoid函数的乘积组成，并且对于每一个数据点都有一个logistic sigmoid函数。因此对于似然函数(4.59)的计算无法得到精确处理类似地，预测分布也无法得到处理，因此需要使用拉普拉斯近似对其进行相应的近似处理。

对于拉普拉斯近似，我们首先需要找到后验分布的众数，然后调节一个以众数为中心的高斯分布。假设我们定义高斯先验，

$p(\boldsymbol{\omega})=\mathcal{N}(\boldsymbol{\omega}|\boldsymbol{m}_0,\boldsymbol{S}_0) \tag{4.85}$

$\boldsymbol{m}_0,\boldsymbol{S}_0$ 是固定的超参数。考虑式(4.59)的后验分布，

$p(\boldsymbol{\omega}|\textbf{t}) \propto p(\boldsymbol{\omega})p(\textbf{t}|\boldsymbol{\omega}) \tag{4.86}$

则利用式(4.59)、(4.85)、(4.86)，我们可以得到，

$\begin{aligned} \textbf{ln}p(\boldsymbol{\omega}|\textbf{t})&=-\frac{1}{2}(\boldsymbol{\omega}-\boldsymbol{m}_0)^T\boldsymbol{S}^{-1}(\boldsymbol{\omega}-\boldsymbol{m}_0) \\ &+ \sum_{n=1}^N\{t_n\textbf{ln}y_n+(1-t_n)\textbf{ln}(1-t_n)\} + const \end{aligned} \tag{4.87}$

对式(4.87)求其最大后验解得 $\boldsymbol{\omega}_{MAP}$ ，对其就二阶导数的逆矩阵得到协方差 $\boldsymbol{S}_N^{-1}$ ，

$\boldsymbol{S}_N^{-1}=-\nabla \nabla\textbf{ln}p(\boldsymbol{\omega}|\textbf{t})=\boldsymbol{S}_0^{-1}+\sum_{n=1}^N y_n(1-y_n)\boldsymbol{\phi}_n \boldsymbol{\phi}_n^T \tag{4.88}$

从而得到后验概率分布的高斯近似形式，

$q(\boldsymbol{\omega})=\mathcal{N}(\boldsymbol{\omega}|\boldsymbol{\omega}_{MAP},\boldsymbol{S}_N) \tag{4.89}$

b. predictive distribution

得到了参数的高斯近似，即可以得到对于类别的预测分布，假设给定一个新的特征向量 $\boldsymbol{\phi}(\boldsymbol{x})$ ，类别 $\mathcal{C}_1$ 的预测分布可以表示为，

$p(\mathcal{C}_1|\boldsymbol{\phi},\textbf{t})=\int p(\mathcal{C}_1|\boldsymbol{\phi},\boldsymbol{\omega})p(\boldsymbol{\omega}|\textbf{t})d\boldsymbol{\omega} \simeq\int \sigma(\boldsymbol{\omega}^T\boldsymbol{\phi})q(\boldsymbol{\omega})d\boldsymbol{\omega} \tag{4.90}$

zhoudinglive

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PRML Chapter 04 Linear Models for Classification

PRML Chapter 04 Linear Models for Classification本章的内容主要围绕在基础的线性分类模型上，从判别式模型(discriminative models)的角度介绍了最小平方和、Fisher判别式、感知机三种常用方法，以及logistic regression(虽然叫回归，但是是一种分类算法)等；从生成式模型(generative models)则主要...
复制链接

扫一扫