第四章：Linear Models for Classification

最新推荐文章于 2022-07-22 15:35:23 发布

weishenmetlc

最新推荐文章于 2022-07-22 15:35:23 发布

阅读量750

点赞数 1

分类专栏：模式识别与机器学习1-14章内容小结-bishop

本文链接：https://blog.csdn.net/weishenmetlc/article/details/52156508

版权

模式识别与机器学习1-14章内容小结-bishop 专栏收录该内容

18 篇文章 10 订阅

订阅专栏

一：导论

1：分类问题的目标是把输入矢量为 $\vec x$ 的一个数据点分类到K个离散类 $C_{k}$ 中的一个。在大部分的情况下，这些类是不相交的，因此每个输入数据点只能分配到一个类中，因为每个输入都对应着一个类，因此输入空间(input space)被分成了一系列的decision regions，这些decision regions的边界称为decision boundaries或者是decision surfaces。

2：线性分类模型是指decision surface是输入矢量 $\vec x$ 或 $\vec \phi{(\vec x)}$ 的线性函数，因此decision surface是D维输入空间中的D-1维超平面(hyperplane)。如果数据集中的类能够被线性的decision surfaces分离开，则称该数据集是linearly separable。

注：超平面(hyperplane)的定义：假定有一个N维的空间，则超平面就是该N维空间中的N-1维线性子空间。

3：对于递归问题，目标变量 $\vec t$ 简单地是我们希望预测的实数值的向量，但是对于分类问题，有着许多使用目标值去代表类标号的方法。在概率论模型中，对于两类问题，最常见使用的是二进制表示，一个单个目标变量t有着值0或1，t的值为1代表着类 $C_{1}$ ，t的值为0代表着类 $C_{2}$ ，我们能够把t的值理解为类是 $C_{1}$ 的概率；对于K>2的多类问题，我们能够使用1-of-K coding scheme，目标变量 $\vec t$ 是长度为K的向量，如果某个数据点属于第j个类，则该向量除了第j个分量是1，其它的均为0。

4：我们有三种能够被用于解决分类问题的方法：

（1）：Discriminant Function：通过一个函数，直接把输入 $\vec x$ 分类到某一类别；

（2）：Generative Model：模型化类条件密度 $p(\vec x|C_{k})$ 和先验概率 $p(C_{k})$ ，然后使用贝叶斯定理 $p(C_{k}|\vec x)=\frac{p(\vec x|C_{K})p(C_{K})}{p(\vec x)}$ 计算出后验概率 $p(C_{K}|\vec x)$ ；

（3）：Discriminant Model：用参数化的模型直接代表后验概率 $p(C_{k}|\vec x)$ ，然后使用训练集去最优化模型参数。

5：我们用（输出值在[0,1]之间的） $y(\vec x)=f(\vec w^T \vec \phi{(\vec x)}+w_{0})$ 去模型化分类问题，这本质上是后验概率 $p(C_{k}|\vec x)$ 的函数表达形式，非线性f()函数被称之为activation function，f()的逆函数被称为link function。decision surfaces对应于y=constant，因此 $\vec w^T \vec \phi{(\vec x)}+w_{0}=constant$ ，因此decision surfaces 是 $\vec\phi{(\vec x)}$ 的线性函数，尽管f()函数是非线性的。由于这个原因， $y(\vec x)=f(\vec w^T \vec \phi{(\vec x)}+w_{0})$ 被称之为gneralized linear models(GLM)。书中不仅介绍了用于两类分类模型的f()函数，分别是logistic sigmoid和probit函数，还介绍了用于多类的f()函数，叫做normalized exponential函数

二：Discriminant Functions：

1：discirminant是直接把输入矢量 $\vec x$ 分类到某一个类别的函数。在本章中，我们考虑linear discriminant，也就是它的decision surfaces是超平面，因此linear discriminant是我们上述所说的线性分类模型，但linear discriminant不属于概率模型。

2：两类问题的linear discriminant：对于两类问题，最简单的linear discriminant是直接采取输入矢量 $\vec x$ 的线性函数，表达式为 $y(\vec x)=\vec w^{T}\vec x+w_{0}$ ，在这里 $\vec w$ 被称为weight vector， $w_{0}$ 被称为bias。如果 $y(\vec x) \geq 0$ ，输入矢量 $\vec x$ 则被分到类 $C_{1}$ ，否则就被分到类 $C_{2}$ 。不难发现，这对应的decision boundary或者是decision surface满足 $y(\vec x)=0$ 这一条件，因此这时decision boundary是输入矢量 $\vec x$ 的线性函数，为D维输入空间下的（D-1）维超平面。

3：多类问题的linear discriminant：K类问题的linear discriminant是由K个线性函数组成的discriminant，每个线性函数的形式是 $y_{k}(\vec x)=\vec w_{k}^{T} \vec x+w_{k0}$ 并且当 $y_{k}(\vec x)>y_{j}(\vec x)$ 时（j取遍除了k类外的所有其它类），把点 $\vec x$ 分类到 $C_{k}$ 。因此类 $C_{k}$ 与 $C_{j}$ 之间的decision boundary是 $y_{k}{(\vec x)}=y_{j}{(\vec x)}$ ，对应的D-1维超平面方程式是 $(\vec w_{k}-\vec w_{j})^T\vec x+(w_{k0}-w_{j0})=0$ ，并且可以证明这个k-类discriminant所决定的decision region是单连通凸空间。

4：训练linear discriminant的三种方法：least squares，Fisher’s linear discriminant和perceptron algorithm。

1）：least squares：每个类 $C_{k}$ 对应着线性模型 $y_{k}(\vec x)=\vec w_{k}^T\vec x+w_{k0}$ ，我们能够把这K个线性模型写成 $\vec y(\vec x)=\widetilde{W}^T\widetilde{\vec x}$ 。假设训练集有N个数据点( $\vec x_{n},\vec t_{n})$ ，则其误差函数和为

E D (W ˜) = \sum n = 1 N | | t ⃗ n - W ˜ T x ⃗ n ˜ | | 2

$E_D(\widetilde{W})=\sum_{n=1}^{N}||\vec t_{n}-\widetilde{W}^T\widetilde{\vec x_{n}}||^{2}$ 为了最小化该误差函数，令该误差函数和对

W˜ $\widetilde{W}$ 的导数为0，则

W˜=((˜X)T(˜X))−1X˜TT $\widetilde{W}=(\widetilde(X)^T\widetilde(X))^{-1}\widetilde{X}^TT$ ，其中矩阵X的第n行是矢量

x⃗ ˜Tn $\widetilde{\vec x}_{n}^T$ ，矩阵T的第n行是矢量

t⃗ Tn $\vec t_{n}^T$ 。

用最小二乘法决定linear discriminant模型中参数 $\vec w$ 的方法并不是很理想，原因在于最小二乘法对应的是高斯分布假设下的极大似然法，但是二进制目标变量 $\vec t$ 所遵循的分布显然离高斯分布相差甚远。

2）：Fisher’s linear discriminant：

（1）：用于两类问题的Fisher’s linear discriminant：假定我们有一个D维输入矢量 $\vec x$ ，用 $y=\vec w^T\vec x$ 把其投影到一维上，为了尽量使投影到一维的类分离开，我们应该使数据投影到一维后，不同类的数据尽可能的分开，同时又要使同类的数据尽量聚集在一块，因此我们要最大化Fisher criterion，即the ratio of the between-class variance to the within-class variance

J (w ⃗) = ( m 2 - m 1 ) 2 s 2 1 + s 2 2 = w ⃗ T S B w ⃗ w ⃗ T S W w ⃗ S B = (m ⃗ 2 - m ⃗ 1) (m ⃗ 2 - m ⃗ 1) T (b e t w e e n - c l a s s v a r i a n c e) S W = \sum n \in C 1 (x ⃗ n - m ⃗ 1) (x ⃗ n - m ⃗ 1) T + \sum n \in C 2 (x ⃗ n - m ⃗ 2) (x ⃗ n - m ⃗ 2) T (w i t h i n - c l a s s v a r i a n c e)

$J(\vec w)=\frac{(m_{2}-m_{1})^{2}}{s_{1}^{2}+s_{2}^{2}}=\frac{\vec w^TS_{B}\vec w}{\vec w^{T}S_{W}\vec w}\\S_{B}=(\vec m_{2}-\vec m_{1})(\vec m_{2}-\vec m_{1})^T(between-class\ variance)\\S_{W}=\sum_{n \in C_{1}}(\vec x_{n}-\vec m_{1})(\vec x_{n}-\vec m_{1})^{T}+\sum_{n \in C_{2}}(\vec x_{n}-\vec m_{2})(\vec x_{n}-\vec m_{2})^{T}\ (within-class\ variance)$
最大化

J(w⃗ ) $J(\vec w)$ ，我们能够得到

w⃗ ∝S−1W(m⃗ 2−m⃗ 1) $\vec w \propto S_{W}^{-1}(\vec m_{2}-\vec m_{1})$

（2）：用于多类问题的Fisher’s linear discriminant：假设我们有K>2个类，输入矢量 $\vec x$ 是D维的，我们有D’个linear ‘features’ $y_{k}=\vec w_{k}^{T}\vec x\ (k=1,...,D')$ ，注意D’不等于K，同样地我们能够用 $\vec y=W^{T}\vec x$ 去代表这D’个linear ‘features’，因此我们能够用 $\vec y=W^{T}\vec x$ 把D维的输入矢量 $\vec x$ 投影到D’维空间，这相当于dimensionality reduction。再一次我们希望投影后不同类的数据要尽可能的分开，同类的数据尽可能地聚集在一块，这一次我们选择最大化 $J(\vec W)=Tr\{s_{w}^{-1}s_{B}\}=Tr\{(WS_{W}W^{T})^{-1}(WS_{B}W^{T})\}$

通过一些分析，我们能够发现linear ‘features’的个数D’应该要小于等于(K-1)。

3）：The perceptron algorithm

The perceptron algorithm算法只能用于解决两类问题。我们用generalized linear model(GLM) $y(\vec x)=f(\vec w^{T}\vec \phi{(\vec x)})$ 来描述，其中非线性activation function f()为阶跃函数（当a>=0时，f(a)=+1，当a<0，f(a)=-1），然后为了用训练集训练参数 $\vec w$ ，我们最小化perceptron criterion $E_{p}(\vec w)=-\sum_{n \in M}\vec w^{T}\vec \phi(\vec x_{n})t_{n}$ ，其中M代表是全部misclassified patterns的集合。

我们能够对这个误差函数采用stochastic gradient descent algorithm算法来求得参数 $\vec w$

w ⃗ (τ + 1) = w ⃗ (τ) - η ▽ E p (w ⃗) = w ⃗ (τ) + η ϕ ⃗ (x ⃗ n) t n

$\vec w^{(\tau+1)}=\vec w^{(\tau)}-\eta \bigtriangledown{E_{p}(\vec w)}=\vec w^{(\tau)}+\eta \vec\phi(\vec x_{n})t_{n}$
对上式可以采用如下理解：我们轮流地对训练集进行逐个循环，对于每一个数据点

x⃗ n $\vec x_{n}$ ，我们先计算

y(x⃗ )=f(w⃗ Tϕ⃗ (x⃗ )) $y(\vec x)=f(\vec w^{T}\vec \phi{(\vec x)})$ ，如果这个数据点被正确分类了，参数

w⃗ $\vec w$ 则不改变；如果它没有被正确分类，我们就用上式对参数

w⃗ $\vec w$ 进行更新。

但是这个perceptron algorithm有着很大的缺点，除了上面说的只能用于两类问题外，还有一点就是当数据集不是linealy separable时，该算法不收敛，并且就算数据集是linearly separable，算法运行也很慢。

三：Probabilistic Generative Model:

1：我们先模型化类条件密度 $p(\vec x|C_{k})$ 和类先验概率 $p(C_{k})$ ，然后使用贝叶斯定理计算后验概率 $p(C_{k}|\vec x)$ 。

2：后验概率表达形式

两类问题：

p (C 1 | x ⃗) = p ( x ⃗ | C 1 ) p ( C 1 ) p ( x ⃗ | C 1 ) p ( C 1 ) + p ( x ⃗ | C 2 ) p ( C 2 ) = 1 1 + e x p ( - a ) = σ (a) a = l n p ( x ⃗ | C 1 ) p ( C 1 ) p ( x ⃗ | C 2 ) p ( C 2 )

$p(C_{1}|\vec x)=\frac{p(\vec x|C_{1})p(C_{1})}{p(\vec x|C_{1})p(C_{1})+p(\vec x|C_{2})p(C_{2})}\\=\frac{1}{1+exp(-a)}=\sigma{(a)}\\a=ln\frac{p(\vec x|C_{1})p(C_{1})}{p(\vec x|C_{2})p(C_{2})}$
其中

σ(a) $\sigma(a)$ 是logistic sigmoid函数，满足对称性质

σ(−a)=1−σ(a) $\sigma(-a)=1-\sigma(a)$ ，并且它的逆函数为

a=ln(σ1−σ) $a=ln(\frac{\sigma}{1-\sigma})$ ，此逆函数也被称之为logit函数

多类问题：

p (C k | x ⃗) = p ( x ⃗ | C k ) p ( C k ) \sum j p ( x ⃗ | C j ) p ( C j ) = e x p ( a k ) \sum j e x p ( a j ) a k = l n (p (x ⃗ | C k) p (C k))

$p(C_{k}|\vec x)=\frac{p(\vec x|C_{k})p(C_{k})}{\sum_{j}p(\vec x|C_{j})p(C_{j})}\\=\frac{exp(a_{k})}{\sum_{j}exp(a_{j})}\\a_{k}=ln(p(\vec x|C_{k})p(C_{k}))$
上述表达式

exp(ak)∑jexp(aj) $\frac{exp(a_{k})}{\sum_{j}exp(a_{j})}$ 被称之为normalized exponential，有时候也被称之为softmax function

3：我们假定类条件密度 $p(\vec x|C_{k})$ 为高斯函数 $p(\vec x|C_{k})=\frac{1}{(2\pi)^{(D/2)}}\frac{1}{|\Sigma|^{1/2}}exp\{-\frac{1}{2}(\vec x-u_{k})^{T}\Sigma^{-1}(\vec x-\vec u_{k})\}$ ，并且所有类条件密度有着相同的协方差矩阵，则

两类问题：

p (C 1 | x ⃗) = σ (w ⃗ T x ⃗ + w 0) w ⃗ = Σ - 1 (u ⃗ 1 - u ⃗ 2) w 0 = - 1 2 u ⃗ T 1 Σ - 1 u ⃗ 1 + 1 2 u ⃗ T 2 Σ - 1 u ⃗ 2 + l n p ( C 1 ) p ( C 2 )

$p(C_{1}|\vec x)=\sigma(\vec w^{T}\vec x+w_{0}) \\ \vec w=\Sigma^{-1}(\vec u_{1}-\vec u_{2})\\w_{0}=-\frac{1}{2}\vec u_{1}^{T}\Sigma^{-1}\vec u_{1}+\frac{1}{2}\vec u_{2}^{T}\Sigma^{-1}\vec u_{2}+ln \frac{p(C_{1})}{p(C_{2})}$
这导致的decision boundaries对应于后验概率

p(Ck|x⃗ ) $p(C_{k}|\vec x)$ 是常数的平面，因此是关于

x⃗ $\vec x$ 的线性函数。

多类问题：

a k (x ⃗) = w ⃗ T k x ⃗ + w k 0 w ⃗ k = Σ - 1 u ⃗ k w k 0 = - 1 2 u ⃗ T k Σ - 1 u ⃗ k + l n p (C k)

$a_{k}(\vec x)=\vec w_{k}^{T}\vec x+w_{k0}\\ \vec w_{k}=\Sigma^{-1}\vec u_{k} \\ w_{k0}=-\frac{1}{2}\vec u_{k}^{T}\Sigma^{-1}\vec u_{k}+lnp(C_{k})$

ak(x⃗ ) $a_{k}(\vec x)$ 是关于

x⃗ $\vec x$ 的线性函数，相等的后验概率则定义了decision boundaries，对应着

x⃗ $\vec x$ 的线性函数，因此我们再一次得到了一个generalized linear model。

注明：如果每个类条件密度 $p(C_{k}|\vec x)$ 有着自己的协方差矩阵，而不是像上面所说的有着共同的协方差矩阵，则我们就得不到关于 $\vec x$ 的一次函数形式，得到的是关于 $\vec x$ 的二次函数形式。

4：两类问题模型的极大似然解：

（1）：我们现在假设了类条件密度 $p(\vec x|C_{k})$ 服从高斯分布，我们能够用极大似然法求得此高斯分布的一些列参数以及对应的类先验概率 $p(C_{k})$ 。

（2）：考虑两类问题：假设我们有一个数据集{ $\vec x_{n},t_{n}$ }， $t_{n}=1$ 代表着类 $C_{1}$ ， $t_{n}=0$ 代表着类 $C_{2}$ 。并且我们还令先验类概率 $p(C_{1})=\pi$ ，因此 $p(C_{2})=1-\pi$ ，则似然函数能够写成如下形式：

p (t ⃗, X | π, u ⃗ 1, u ⃗ 2, Σ) = \prod n = 1 N [π N (x ⃗ n | u ⃗ 1, Σ)] t n [(1 - π) N (x ⃗ n | u ⃗ 2, Σ)] 1 - t n

$p(\vec t,X|\pi,\vec u_{1},\vec u_{2},\Sigma)=\prod_{n=1}^{N}[\pi N(\vec x_{n}|\vec u_{1},\Sigma)]^{t_{n}}[(1-\pi)N(\vec x_{n}|\vec u_{2},\Sigma)]^{1-t_{n}}$
分别对

π,u⃗ 1,u⃗ 2,Σ $\pi,\vec u_{1},\vec u_{2},\Sigma$ 求导，令这些导数为0，我们就能够得到如下结果:

π = N 1 N 1 + N 2 ， N 1, N 2 分 别 为 类 C 1 和 类 C 2 中 的 数 据 点 个 数 u ⃗ 1 = 1 N 1 \sum n = 1 N t n x ⃗ n u ⃗ 2 = 1 N 2 \sum n = 1 N (1 - t n) x ⃗ n Σ = 1 N \sum n \in C 1 (x ⃗ n - u 1) (x ⃗ n - u 1) T + 1 N \sum n \in C 2 (x ⃗ n - u ⃗ 2) (x ⃗ n - u ⃗ 2) T

$\pi=\frac{N_{1}}{N_{1}+N_{2}}， N_{1},N_{2}分别为类C_{1}和类C_{2}中的数据点个数 \\ \vec u_{1}=\frac{1}{N_{1}}\sum_{n=1}^{N}t_{n}\vec x_{n} \\ \vec u_{2}=\frac{1}{N_{2}}\sum_{n=1}^{N}(1-t_{n})\vec x_{n} \\ \Sigma=\frac{1}{N}\sum_{n \in C_{1}}(\vec x_{n}-u_{1})(\vec x_{n}-u_{1})^{T}+\frac{1}{N}\sum_{n \in C_{2}}(\vec x_{n}-\vec u_{2})(\vec x_{n}-\vec u_{2})^T$

5：Exponential family：

如果类条件密度满足如下指数形式：