分类——线性模型

最新推荐文章于 2024-07-22 09:16:52 发布

安悦

最新推荐文章于 2024-07-22 09:16:52 发布

阅读量399

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_40620694/article/details/104954281

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Linear Models for Classification

与回归模型的是它的预测结果是一个离散变量。
我们讨论的大多数分类问题类别都是不相交的，即一个样本只有一个类别。输入空间可以被划分成若干个决策区域，其边界称为决策边界(decision boundaries or decision surfaces)。标题中所谓的线性模型就是指决策边界是输入变量的线性函数。可以被线性的决策边界成功分类的问题称为线性可分的。
在分类问题中，目标变量 $t$ 的表示形式有多种。例如二分类问题 $t\in\{0,1\}$ ，0代表类别 $C_1$ ，1代表类别 $C_2$ 。概率模型中，t可以被解释为该样本属于 $C_1$ 的概率。多分类问题，t往往被表示为形式如 $\mathbf{t}=(0,0,1)^T$ 的向量，其中只有一个分量为1，表示样本属于 $C_k$

判别函数 Discriminant Functions

讨论线性判别式模型，解决分类问题。几何上等价于，找一个决策平面（超平面）将不同类别的样本分开。从易到难，首先讨论二分类问题。

二分类问题

$y(\mathbf{x})=\mathbf{w}^T\mathbf{x}+w_0$
若 $y(x)\ge 0$ 则样本分类成 $C_1$ 类，否则为 $C_2$ 类，决策边界为 $\mathbf{w}^T\mathbf{x}+w_0=0$

可以看出向量 $\mathbf{w}$ 垂直于决策平面，样本到决策平面的距离
$r=\frac{y(x)}{\rVert \mathbf{w}\lVert}$

这里留一个疑问，如何利用训练集去估计参数

多分类问题

刚刚学习了二分类问题，一个直接的想法是使用 $k - 1$ 个二分类分离器解决K分类问题，这个分类器被称为one-versus-the-rest classifier，他会有模糊区域如图
在这里插入图片描述
另一个简单的想法是使用 $\frac{K(K-1)}{2}$ 个二分类器，用两条线为每一个类划分一个区域，这个分类器被称为one-versus-one classifier

在这里插入图片描述

第三种想法是K个线性分类器，如下
$y_k(\mathbf{x})=w^{T}_{k}x+w_{k0}$
x被预测为 $C_{k}$ 如果 $y_{k}(x)>y_{j}(x)$ 对于任意的 $j\ne k$
可以证明被如此方法划分出来的决策区间是凸的。
假设 $x_{1},x_{2}\in \mathcal R_{k}$ ,则
$\hat{x} = \lambda x_{1}+(1-\lambda)x_{2} w_{k}^{T}\hat{x}+w_{k0}\le w_{k}^{T}(\lambda x_{1}+(1-\lambda)x_{2})+w_{k0}\\ \le \lambda (w_{j}^{T}x_{1}+w_{j0}) + (1-\lambda) (w_{j}^{T}x_{2}+w_{j0}),\forall j\ne k$

之后讲三种训练模型的方法，分别基于最小二乘，Fisher和感知机

Least Square for Classification

在这里，我们陈述使用最小二乘法解决多酚类问题的方法。在上所说的三种分类策略中，第三种用于实际的分类问题，但需要换一种更为简洁的表达方式
$\mathbf{y}(\mathbf{x})=\tilde{W}^{T}\tilde{x}\\$
其中 $\tilde{W}$ 的列向量 $\tilde{w_k}=(w_{k0},w_{k}^{T})^{T}$ ， $\tilde{x}=(1,x^{T})^{T}$ 。x的最终类别就是 $\tilde{w_k}^{T}\tilde{x}$ 最大的那一类

那么现在我们需要找到一个参数矩阵 $\tilde{W}$ 使得二次损失函数最小
$E_D(\tilde{W})=\frac{1}{2}Tr((\tilde{X}\tilde{W}-T)^{T}(\tilde{X}\tilde{W}-T))$
可以求得
$\tilde{W}=(\tilde{X}^{T}\tilde{X})^{-1}\tilde{X}^{T}T=\tilde{X}^{\dagger}T$
就这样，我们容易的求出判别模型的解析解
$\mathbf{y}(\mathbf{x})=\widetilde{\mathbf{W}}^{\mathrm{T}} \widetilde{\mathbf{x}}=\mathbf{T}^{\mathrm{T}}\left(\widetilde{\mathbf{X}}^{\dagger}\right)^{\mathrm{T}} \widetilde{\mathbf{x}}$
最小二乘法对异常值缺少鲁棒性，异常点会对边界产生较为严重的影响，这是由于平方和误差函数的性质所造成的，后文中会介绍其他损失函数来减轻异常点的影响。在使用最大似然法时，我们假设了偏差符合高斯分布，在不满足这个假设的情况下，会导致分类结果的不尽如人意。

Fisher’s linear Discriminant

将线性分类模型视为一种降维的过程。首先考虑一个二分类问题。将一个D维向量投影到一个一维向量
$y=\mathbf{w}^T\mathbf{x}$
然后设置一个阈值 $w_0$ ，当 $y\le-w_0$ x被分类为 $C_1$ ，否则为 $C_2$ 类
正常来说降维会损失大量信息，甚至使原来线性可分的数据不可分。但是通过调整 $w$ 最大化两类样本投影后的距离。

一个简单的想法是让两类样本的中心值距离最远。如下
$\mathbf{m}_1=\frac{1}{N_1}\sum_{n\in C_1}x_n\\ \mathbf{m}_2=\frac{1}{N_2}\sum_{n\in C_2}x_n\\$
即最大化 $m_2-m_1 = \mathbf{w}^{T}(\mathbf{m}_{2}-\mathbf{m}_{1})$ ，同时限制 $\sum_{i}w^{2}_{i}=1$ ，但是这并不能很好的解决问题，当样本具有强非对角化协方差矩阵。
说完上一种方法的缺陷，将来讲讲这一节的正题，Fisher’s linear Discriminant。
Fisher的想法是最大化组间方差，最小化，最小化组内方差。最大化下式
$J(\mathbf{w})=\dfrac{\mathbf{w}^{T}S_{B}\mathbf{w}}{\mathbf{w}^{T}S_{W}\mathbf{w}}$
$S_{B}$ 为组间协方差矩阵，定义为
$\mathbf{S}_{\mathrm{B}}=\left(\mathbf{m}_{2}-\mathbf{m}_{1}\right)\left(\mathbf{m}_{2}-\mathbf{m}_{1}\right)^{\mathrm{T}}$
$S_{W}$ 为总的组内协方差矩阵，定义如下
$\mathbf{S}_{\mathrm{W}}=\sum_{n \in \mathcal{C}_{1}}\left(\mathbf{x}_{n}-\mathbf{m}_{1}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{1}\right)^{\mathrm{T}}+\sum_{n \in \mathcal{C}_{2}}\left(\mathbf{x}_{n}-\mathbf{m}_{2}\right)\left(\mathbf{x}_{n}-\mathbf{m}_{2}\right)^{\mathrm{T}}$

这个想法和PCA是一致的。

省略计算过程，有结果如下，要最大化上式， $w$ 满足
$\left(\mathbf{w}^{\mathrm{T}} \mathbf{S}_{\mathrm{B}} \mathbf{w}\right) \mathbf{S}_{\mathrm{W}} \mathbf{w}=\left(\mathbf{w}^{\mathrm{T}} \mathbf{S}_{\mathrm{W}} \mathbf{w}\right) \mathbf{S}_{\mathrm{B}} \mathbf{w}\\ \mathbf{w} \propto \mathbf{S}_{\mathrm{W}}^{-1}\left(\mathbf{m}_{2}-\mathbf{m}_{1}\right)$

感知机算法

这个很熟悉，不写了

安悦

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分类——线性模型

Linear Models for Classification 与回归模型的是它的预测结果是一个离散变量。我们讨论的大多数分类问题类别都是不相交的，即一个样本只有一个类别。输入空间可以被划分成若干个决策区域，其边界称为决策边界(decision boundaries or decision surfaces)。标题中所谓的线性模型就是指决策边界是输入变量的线性函数。可以被线性的决策边界...
复制链接

扫一扫

专栏目录