线性分类

最新推荐文章于 2023-01-15 09:37:03 发布

对不起该昵称已存在

最新推荐文章于 2023-01-15 09:37:03 发布

阅读量346

点赞数

分类专栏：模式识别与机器学习

本文链接：https://blog.csdn.net/qq_43326818/article/details/112695535

版权

模式识别与机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、总体框架

1、机器学习分类

机器学习可以分为：
（1）、频率派：统计机器学习。
（2）、贝叶斯派：概率图模型。

2、线性回归

线性回归的特点：
（1)、线性，其他：
$\Rightarrow$ 属性非线性：特征转换（例如：多项式回归）

$\Rightarrow$ 全局非线性（全局线性：直接根据判别函数的值进行分类）：线性分类（例如激活函数）

$\Rightarrow$ 系数非线性（系数线性：系数不变，唯一分类器）：神经网络、感知机（感知机的系数可能改变，而神经网络的基础为感知机算法）

（2）、全局性（样本空间的全局性，不做分割处理），其他：
$\Rightarrow$ 线性样条回归（对样本空间分段线性回归），决策树（将样本空间分割）

（3）、数据未加工，其他：
$\Rightarrow$ PCA，流形

3、线性回归 VS 线性分类

线性回归 $\xrightarrow[Dimension Reduction]{激活函数}$ 线性分类： $=f(w^T+b),\left\{\begin{aligned}y\in\{-1,1\}\\y\in[0,1]\end{aligned}\right.$
因此线性分类的关键是找到 $w^T+b$ 和激活函数。

线性回归重在拟合曲线，线性分类基于线性回归，加上激活函数之后，根本的目的是进行分类，其值域只有两种情况： $\{\begin{aligned}y\in\{-1,1\}硬分类\\y\in [0,1]软分类\end{aligned}$

4、线性分类的类别

$线性分类=\left\{\begin{array}{l}y\in\{-1,1\},硬分类（直接判别类别)\Rightarrow\{判别函数模型：Fisher、感知机\\ y\in[0,1]，软分类（与概率有关）\Rightarrow\{\begin{array}{l}生成式模型：p(y|x)=\frac{p(x|y)p(y)}{p(x)}，需要先对类别本身进行研究\\判别式模型：直接计算p(y|x)\end{array}\end{array}\right.$

常见的线性分类方法都为统计机器学习，以下从模型、loss function、优化问题三个方面对常见线性分类器进行介绍。

二、感知机

感知机算法为硬线性分类器，因此为判别函数模型。

1、数据

数据 $X=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$
分错的样本 $D=\{(x_i,y_i)|y_if(x_i)<0\}$

2、思想

错误驱动。

3、模型

判别函数模型， $f(x)=sgn(w^Tx+b),x\in R^n,w\in R^n.$

4、策略

感知机算法为线性，所以核心是 $f(w^T+b)\\\Rightarrow$ 怎样建立目标函数，即找到loss function
$\Rightarrow loss function~=\sum\limits_{i\in D}I[y_i(w^Tx_i+b)<0]$
$\Rightarrow$ 示性函数不连续，不好优化

$\Rightarrow loss~function=\sum\limits_{i\in D}(-[y_i(w^Tx_i+b)])\\\Rightarrow min~loss~function\\ \\\Rightarrow梯度下降\\\\\Rightarrow（批量梯度下降BGD)\frac{\partial{(loss~function)}}{\partial w}=\sum\limits_{i\in D}-y_ix_i\\\Rightarrow（随机梯度下降SGD）w_{k+1}=w_k-(-y(w^Tx_b))=w_k+\lambda y(w^Tx+b)$

5、算法

使用SGD，并将样本数据写为增广形式：
（1）、当 $x_i\in w_1,y_i=1$ ,若其分类错误，则 $w_{k+1}=w_k+\lambda y_ix_i$
（2）、当 $x_i\in w_2,y_i=-1,$ 若其分类错误，则 $w_{k+1}=w_k-\lambda y_ix_i$

综上，感知机算法可总结为：
（1）、数据处理：将数据写为增广的形式，并对 $x_i\in w_2的数据都乘上(-1)$ 。

（2）、选取初值： $w_0与\lambda$ 。

（3）、开始一轮的学习，对每个样本： $w_{k+1}=\left\{\begin{array}{l}w_{k},~~w^T_kx_i>0\\w_k+\lambda x_i,~~w^T_kx_i<0\end{array}\right.$
一轮过程中，若所有的样本都分类正确则结束，但凡有一个分类错误，本轮结束之后还要下一轮进行检验是否将所有样本都分对。

6、总结

感知机算法总结 $\{\begin{array}{l}模型：错误驱动\\loss~function：0，1损失\\优化问题：为了算法实现的方便，对data进行预处理，增广+负样本*（-1）\end{array}$

三、Fisher线性判别

Fisher为线性硬分类，所以为判别函数模型。

1、数据

$Data=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}，x_i$ 为增广形式。
其中 $X_1$ 为 $w_1$ 样本集合, $X_2$ 为 $w_2$ 样本集合。
$X_1|=N_1,|X_2|=N_2,N=N_1+N_2$ 。

2、思想

最小化类内距离，最大化类间距离。

Fisher将数据映射为一维数据，通过阈值进行线性分类，如上图所示：即将 $w$ 视为一数轴，将样本数据映射到数轴 $w$ ，则此时样本为 $w$ 上的点，找到两类的分开阈值进行分类。

分类思想为类内小，类间大，这里的类指的是映射之后的点，因此Fisher算法的目标为求最佳映射方向使得类间距离最大，类内距离最小。

3、模型

将数据映射到 $w$ 方向，长度为 $|x|cos\theta$ ，而 $w^Tx=|w||x|cos\theta$ ，对所有的数据， $∣ w ∣$ 是相同的，所以用 $w^Tx$ 表示 $x$ 在 $w$ 方向上的映射。
将数据映射到 $w$ 方向后考虑如何表示类内距离和类间距离。

（1）、类内距离
考虑样本到均值，即方差（此时的样本为映射后的数据，为一维数据，所以是方差）

$m_1=\frac{1}{N_1}\sum\limits_{i\in N_1}w^Tx_i$
$m_1=\frac{1}{N_2}\sum\limits_{i\in N_2}w^Tx_i$
则类内距离的表示为：
$X_1:\frac{1}{N_1}\sum\limits_{i\in N_1}(w^Tx_i-m_1)^2$
$X_2:\frac{1}{N_2}\sum\limits_{i\in N_2}(w^Tx_i-m_2)^2$

（2）、类间距离：用每个类的均值代表样本，类间剧为均值差。

$X_1与X_2类间距离：(m_1-m_2)^2=(\frac{1}{N_1}\sum\limits_{i\in N_1}w^Tx_i-\frac{1}{N_2}\sum\limits_{i\in N_2}w^Tx_i)$

（3）、目标求最佳映射方向，根据类间和类内距离构建目标：

$m_1=\frac{1}{N_1}\sum\limits_{i\in N_1}w^Tx_i=w^T\frac{1}{N_1}\sum\limits_{i\in N_1}x_i=w^T\tilde{m_1}$
$m_2=\frac{1}{N_2}\sum\limits_{i\in N_2}w^Tx_i=w^T\frac{1}{N_2}\sum\limits_{i\in N_2}x_i=w^T\tilde{m_2}$
其中：
$\tilde{m_1}=\frac{1}{N_1}\sum\limits_{i\in N_1}x_i~~~,~~~\tilde{m_2}=\frac{1}{N_2}\sum\limits_{i\in N_2}x_i$

对类间距离：
$(m_1-m_2)^2=(w^T\tilde{m_1}-w^T\tilde{m_2})^2=w^T(\tilde{m_1}-\tilde{m_2})(\tilde{m_1}-\tilde{m_2})^Tw=w^TS_bw$
其中， $S_b=(\tilde{m_1}-\tilde{m_2})(\tilde{m_1}-\tilde{m_2})^T$

对类内距离：
$\frac{1}{N_1}\sum\limits_{i\in N_1}(w^Tx_i-m_1)^2=\frac{1}{N_1}\sum\limits_{i\in N_1}(w^Tx_i-w^T\tilde{m_1})^2=\frac{1}{N_1}\sum\limits_{i\in N_1}w^T(x_i-\tilde{m_1})^2=\frac{1}{N_1}\sum\limits_{i\in N_1}w^T(x_i-\tilde{m_1})^T(x_i-\tilde{m_1})w=w^TS_1w^T$

同理可得 $\frac{1}{N_2}\sum\limits_{i\in N_2}(w^Tx_i-m_2)^2=w^TS_2w^T$
其中， $S_1=\frac{1}{N_1}\sum\limits_{i\in N_1}(x_i-\tilde{m_1})^T(x_i-\tilde{m_1})\\S_2=\frac{1}{N_2}\sum\limits_{i\in N_2}(x_i-\tilde{m_2})^T(x_i-\tilde{m_2})$
则类内距离为： $w^TS_1w和w^TS_2w$

（4）、总结：
目标为类内小，类间大，则目标为： $min\frac{w^TS_1w+w^TS_2w}{w^TS_bw}=\frac{w^TS_ww}{w^TS_bw}$

其中， $S_w$ 为类内离散度矩阵， $S_w=S_1+S_2$ ， $S_i$ 为 $w_i$ 的协方差矩阵；

$S_b$ 为类间离散度矩阵， $S_b=(\tilde{m_1}-\tilde{m_2})(\tilde{m_1}-\tilde{m_2})^T$ 。

4、策略

目标为 $min\frac{w^TS_ww}{w^TS_bw}$ ，则一定存在 $w^TS_bw=1$ ，因为只与 $w$ 的方向有关， $w$ 可伸缩，不影响分类，所以目标可转化为：

$min~~w^TS_ww\\s.t~~~~w^TS_bw=1$

（1）、问题转化
带约束的问题，且为凸的
$\Rightarrow$ Lagrange乘子法
$\Rightarrow L(\alpha,w)=w^TS_ww+\alpha(w^TS_bw-1)\\\Rightarrow\frac{\partial{L(\alpha,w)}}{\partial{w}}=2S_ww+2\alpha S_bw=0\\\Rightarrow S_ww=-\alpha S_bw\\\Rightarrow w=-S_w^{-1}\alpha S_bw\\\Rightarrow w=-S_w^{-1}\alpha(\tilde{m_1}-\tilde{m_1})(\tilde{m_1}-\tilde{m_2})^Tw\\\Rightarrow=-S_w^{-1}\alpha(\tilde{m_1}-\tilde{m_2})C\\因为只与方向有关，与大小无关，所以忽略常数\\ \Rightarrow w^*=S_w^{-1}(\tilde{m_1}-\tilde{m_2})$

其中 $S_w=S_1+S_2，S_i$ 为协方差矩阵，有系数 $\frac{1}{N_1}$ 和 $\frac{1}{N_2}$ ，但是因为常数不影响，所以为了计算方便，可以忽略常数，即 $S_i=\sum(x_i-\tilde{m_1})(x-\tilde{m_1})^T$ 。

5、算法

Fisher线性判别两类问题：
（1）、样本均值： $\tilde{m_1}=\frac{1}{N_1}\sum x_i,\tilde{m_2}=\frac{1}{N_2}\sum x_i$
（2）、类内离散度矩阵： $S_1=\sum(x_i-\tilde{m_1})(x_i-\tilde{m_1})^T\\~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~S_2=\sum(x_i-\tilde{m_2})(x_i-\tilde{m_2})^T$
（3）、类间距离： $\tilde{m_1}-\tilde{m_2}$
（4）、 $w^*=S_w^{-1}(\tilde{m_1}-\tilde{m_2})$
（5）、判别阈值通常可取（判别点的取值看投影后的数据分布）： $\left\{\begin{array}{l}\frac{m_1+m_2}{2}=\frac{1}{2}w^{*T}(\tilde{m_1}+\tilde{m_2}) \\\frac{N_1m_1+N_2m_2}{N}=w^{*T}\tilde{m},\tilde{m}=\frac{1}{N}\sum x_i\end{array}\right.$

四、logostic回归

感知机、Fisher线性判别函数模型为硬分类，现讨论软分类。
软分类： $\left\{\begin{array}{l}生成式模型：高斯判别分析\\判别式模型：logistic ~~regression\end{array}\right.$
现讨论logistic regression。

1、思想

（1）、logistic regression为判别模型，所以要求P(y|x)。
（2）、线性分类基于线性回归，所以根本要找得是 $f(w^T+b)$ ，则问题为如何找 $f$ ，将 $w^T+b$ 转化为概率p(y|x)。
（3）、logistic regression使用sigmod函数， $\sigma(z)=\frac{1}{1+e^{-z}}$ 。

（4）、通过sigmod函数如何将 $f(w^Tx+b)$ 与p(y|x)联系：一般 $y=sgn(f(w^Tx+b))$ ，即类别与 $f(w^Tx+b)$ 的正负有关，所以若 $y=\left\{\begin{array}{l}1,w^Tx+b>0\\0,w^Tx+b<0\end{array}\right.$
则转化为概率： $P(y=1|x)=\frac{1}{1+e^{-(w^Tx+b)}}$ ，则当 $w^Tx+b>0,P(y=1|x)>\frac{1}{2},否则<\frac{1}{2}$ ，即当 $w^Tx+b>0$ 时， $x\in w_1$ 的概率大，根据Baytes最小错误率判别， $y = 1$ 。

2、模型

已知 $p (y ∣ x)$ ，即 $p (y ∣ w, b)$ 求参数用MLE，以下（蕴含的条件是样本之间相互独立）:
$J(w)=\prod\limits_{i=1}^NP(y=1|w)^{y_i}(1-P(y=1|w))^{1-y_i}$
则对数似然函数:
$J(w)=\sum\limits_{i=1}^Ny_ilogP(y=1|w)+(1-y_i)log(1-P(y=1|w))$

3、策略

以下数据使用增广形式。
$\underset{w~~~~~~~~~~~~~}{arg~max}\sum\limits_{i=1}^Ny_ilogP(y=1|w)+(1-y_i)log(1-P(y=1|w))\\=\sum\limits_{i=1}^Ny_ilog(\frac{1}{1+e^{-w^Tx_i}})-(1-y_i)log(\frac{e^{-w^Tx_i}}{1+e^-{w^Tx_i}})\\=\sum\limits_{i=1}^Ny_i(0-log(1+e^{w^Tx}))-(1-y_i)(-w^Tx-log(1+e^{-w^Tx}))\\=\sum\limits_{i=1}^N(-w^Tx_i+y_iw^Tx_i-log(1+e^{-w^Tx}))$

$\frac{\partial{J(w)}}{\partial{w}}=\sum\limits_{i=1}^N(-x_i+y_ix_i+\frac{1}{1+e^{-w^Tx}}e^{-w^Tx}x_i)\\=\sum\limits_{i=1}^N(y_i-\frac{1}{1+e^{-w^Tx}})x_i\\=\sum\limits_{i=1}^N(y_i-f(w,x_i))x_i$

梯度为BGD，难求，使用SGD。

4、算法

（1）、输入数据， $Data=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 。
（2）、生成式模型，MLE： $max~J(w)=\sum\limits_{i=1}^NlogP(y=1|x_i)^{y_i}(1-P(y=1|x_i))^{1-y_i}$
$\nabla J(w)=\sum\limits_{i=1}^N(y_i-f(w^Tx_i))x_i$ 。
（3）、SGD（MLE，所以迭代加上梯度）：

$w_{k+1}=w_k+\alpha(y_i-f(w^Tx_i))x_i$
（4）、停止条件：
达到一定迭代次数；
达到一定的精确度，例如 $w_k$ 可正确分类多少样本。

5、logistic regression’s loss function

J(w)为max，而loss function一般为min，所以可以将-J(w)作为loss function。所以：
$L(w)=-\sum\limits_{i=1}^Ny_ilogf(w,x_i)+(1-y_i)log(1-f(w,x_i))$
则 $loss~function=\left\{\begin{array}{l}-log(f(w,x_i)),y_i=1\\-log(1-f(w,x_i)),y_i=0\end{array}\right.$
分析：
当 $y_i=1,loss~function随f(w,x_i)的增大而减小，这是合理的，因为f(w,x_i)增大，说明其大概率\in w_1，所以损失小。\\当y_i=0,loss~function随着f(w,x_i)增大而增大，也是合理。$

6、小结

线性函数： $w^Tx$
激活函数: $f(z)=\frac{1}{1+e^{-z}}$
判别函数转化为概率：激活函数 $\Rightarrow P(y=1|x)=f(x)=\frac{1}{1+e^{-w^Tx}}$
参数求解：MLE（SGD VS BGD)

五、高斯判别模型

高斯判别模型为生成式模型，即相比判别式模型，其需对类被本身的分布进行研究。

1、数据

$Data=\{(x_1,y_2),(x_2,y_2),...,(x_N,y_N)\}$

2、思想

生成式模型有 $P (y)$ 和 $P (x ∣ y)$ ，希望估计 $P (y ∣ x)$ 进行分类。如果已经知道 $P (y)$ 和 $P (x ∣ y)$ ，则可求出 $P (y ∣ x)$ ，也不用再学习模型，关键是只知服从什么分布，不知具体参数，所以要求出分布的参数。使用MAP估计出分布的参数之后，再使用Baytes最小错误率进行类别分类。

3、模型

关键是假设 $P (y) 和 P (x ∣ y) ，$ 涉及概率分布时一般y的取值为1与0，这是为了表达的一致性（例如logistic regression)。
$y$ 服从伯努利分布 $\Rightarrow P(y=1)=p,P(y=0)=1-p$
$N(\mu_1,\Sigma)\\p(x|y=0)=N(\mu_2,\Sigma)$
$p (x ∣ y = 1) 和 p (x ∣ y = 0)$ 的协方差矩阵相同可以理解，因为无论 $x$ 为哪一类，其每一维的独立性应该是一致的，因为 $\Sigma$ 表示的是 $x$ 的不同维之间是否有相关性，所以可以假设为相同。

4、策略

知 $P (y) 与 P (x ∣ y)$ ，则使用MAP估计 $(\mu_1,\mu_2,\Sigma,p)$ ，求得 $P (y ∣ x)$ 。
$\theta=(\mu_1,\mu_2,\Sigma,p)，L(\theta)=\prod\limits_{i=1}^NP(y_i)P(x_i|y_i)\xRightarrow []{log}L(\theta)=\sum\limits_{i=1}^NlogP(x_i|y_i)+logP(y_i)\\=\sum\limits_{x_I\in w_1}logP(x_i|y_i)+logP(y_i)+\sum\limits_{x_i\in w_2}logP(x_i|y_i)+logP(y_i)\\=\sum\limits_{i=1}^NlogN(\mu_1,\Sigma)^{y_i}N(\mu_2,\Sigma)^{1-y_i}+logp^{y_i}(1-p)^{1-y_i}$

（1）、求p:
$\frac{\partial{L(p)}}{\partial{p}}=\sum\limits_{i=1}^N\frac{y_i-p}{p(1-p)}=0\Rightarrow p=\frac{\sum\limits_{i=1}^Ny_i}{N}$
（2）、求 $\mu_1$ :
$\frac{\partial{L(\mu_1)}}{\partial{\mu_1}}=0\Rightarrow\mu_1=\frac{\sum\limits_{x_i\in w_1}x_i}{N_1}$

（3）、求 $\mu_2$
$\frac{\partial{L(\mu_2)}}{\partial{\mu_2}}=0\Rightarrow\mu_2=\frac{\sum\limits_{x_i\in w_2}x_i}{N_2}$

（4）、求 $\Sigma$
$\frac{\partial{L(\Sigma)}}{\partial{\Sigma}}=0\Rightarrow \Sigma=\frac{1}{N}[\sum\limits_{x_i\in w_1}(x_i-\mu_1)(x_I-\mu_1)^T+\sum\limits_{x_i\in w_2}(x_i-\mu_2)(x_i-\mu_2)^T]$

5、算法

高斯判别分析 $\Rightarrow$ 生成式模型 $\Rightarrow P(y),P(x|y)\Rightarrow MAP$ 估计参数

六、朴素贝叶斯判别

朴素贝叶斯判别为生成式模型，则要考虑 $P (y) ， P (x ∣ y)$ 来估计 $P (y ∣ x)$ ，前面的高斯判别分析中 $P (y) ， P (x ∣ y)$ 为高斯分布，朴素贝叶斯决策的问题也在于如何得到 $P (y) 和 P (x ∣ y)$ 。

1、思想

朴素贝叶斯决策的本质思想为朴素贝叶斯假设（为了计算简便），即条件独立性假设，为最简单的概率图模型。

朴素贝叶斯决策假设的独立为：给定y的条件下，x的每维是相互独立的（注意：是x的每一维独立，而不是样本间独立）。

2、数据

$Data=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，x的每一维相互独立。

3、模型

$P(x|y)=\prod\limits_{i=1}^nP(x_i|y),其中P(x_i|y)=\frac{num(y类中样本中x_i的取值相同的样本)}{N_1}$

4、策略

由数据得到 $P (y) 和 P (x ∣ y)$ 的估计，使用贝叶斯最小错误率决策。

5、算法

$\hat{y}=\underset{y~~~~~~~~~~~~}{arg~max}P(y|x)\\\Rightarrow \underset{y~~~~~~~~~~~~}{arg~max}\frac{P(y)P(x|y)}{P(x)}\\\Rightarrow\underset{y~~~~~~~~~~~~}{arg~max}P(y)P(x|y)$
其中，P(y)服从伯努利分布， $P(x|y)=\prod\limits_{i=1}^nP(x_i|y)$