林轩田之机器学习课程笔记（ how can machines learn之linear models for classification）（32之11）

最新推荐文章于 2022-01-15 21:56:45 发布

cqychen

最新推荐文章于 2022-01-15 21:56:45 发布

阅读量284

点赞数 1

分类专栏：机器学习笔记文章标签：机器学习多分类林轩田

本文链接：https://blog.csdn.net/cqy_chen/article/details/78908160

版权

机器学习笔记专栏收录该内容

74 篇文章 1 订阅

订阅专栏

概要
通过线性模型进行二分类
随机梯度下降
通过逻辑回归进行多分类
多分类与二分类

欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen

概要

上节课讲述了逻辑回归，分析了逻辑回归的损失函数，采用了梯度下降的方式来求解。这节进行了延伸。

通过线性模型进行二分类

线性模型我们知道有线性回归以及逻辑回归。我们将三者的损失函数进行变形，设定 $s=w^Tx$ ，因为这个表示一个加权分数。
结果如下图：

这里写图片描述
将三者的损失函数画在图形上如下：

所以我们得到：

e r r 0 / 1 \leq e r r s c e = 1 l n 2 e r r c e 因 为 根 据 v c 维 理 论 ： E 0 / 1 o u t (w) \leq E 0 / 1 i n (w) + . . . . . . - - - - - \sqrt \leq E s c e i n (w) + . . . . . . - - - - - \sqrt

$err_{0/1}\leq err_{sce}=\frac{1}{ln2}err_{ce}\\ 因为根据vc维理论：\\ E_{out}^{0/1}(w)\leq E_{in}^{0/1}(w)+\sqrt{......}\leq E_{in}^{sce}(w)+\sqrt{......}$
所以呢，只要将数据采用逻辑回归得到一个比较小的值，那么就可以将二分类的损失函数降低，从而使得

E0/1out(w) $E_{out}^{0/1}(w)$ 降低。
所以我们是可以使用逻辑回归或者线性回归来求解二分类的。
这样直接替换的麻烦就是上界被我们放大了。
这里写图片描述

所以我们一般是这样做：
1）使用线性回归初始化 $w$
2）然后采用逻辑回归求解二分类问题。

随机梯度下降

在PLA中，我们每次更新只看犯错误的点，而在逻辑回归的梯度下降中，每次更新需要计算梯度，而计算梯度是要计算中整个资料点的。能不能也让逻辑回归每次计算只看一个点呢？
原始的式子是

w t + 1 = w t + η 1 N \sum n = 1 N θ (- y n w T x n) (y n x n)

$w_{t+1}=w_{t}+\eta \frac{1}{N}\sum_{n=1}^{N}\theta (-y_nw^Tx_n)(y_nx_n)$
原来一堆数据的平均，我们通过随机一堆数据来平均进行代替。现在只抽取一个点，这个思想被称为随机梯度。
将真正的梯度作为随机梯度的期望。这两个应该是差不多的。
随机梯度=真实的梯度+0均值的一个噪音
随机梯度的好吃就是快，简单。采用随机梯度可以应用在大数据方面以及在线学习方面。现在深度学习基本都是采用随机梯度下降方法进行优化。
采用随机梯度的后，变更改为：

w t + 1 = w t + η θ (- y n w T x n) (y n x n) 对 比 下 P L A 的 更 新 方 式 ： w t + 1 = w t + 1 * [y n \neq s i g n (w T x n)] (y n x n)

$w_{t+1}=w_{t}+\eta \theta (-y_nw^Tx_n)(y_nx_n)\\ 对比下PLA的更新方式：\\ w_{t+1}=w_{t}+1*[y_n\neq sign(w^Tx_n)](y_nx_n)$
两者进行对比之后发现采用随机梯度的逻辑回归和PLA的更新方式貌似差不多嘛。当逻辑回归的

η=1 $\eta=1$ 而且

wTxn $w^Tx_n$ 比较大的时候，就差不多了。
现在还有两个问题，
1）算法什么时候该停止，采用SGD没有办法说计算整个的梯度，所以呢，不好计算整个的梯度是否为0作为条件。一般情况下就是运行我们认为够多的次数。
2）算法的

η $\eta$ 该等于多少。这个没有明确的定义，一般采用0.1就差不多啦。

通过逻辑回归进行多分类

前面一直讲的是二分类，现在如何延伸到多分类的问题。
如下图所示，有四个类别，如何采用以前的二分类来进行多分类呢？
这里写图片描述
一种想法是将其中一种和其他几种分开。就是oneVSall
这样就得到如下的结果：

这样重复多次，就可以将各个类别分开。最后得到结果：

我们可以明显的看到：
1）中间的区域，貌似都不属于任何类别
2) 部分区域会有两个分类器都说是自己。
所以直接使用0/1分类就会导致这样的问题，那么如果采用逻辑回归来进行一个概率估计呢？前面我们也证明了逻辑回归是可以用来进行分类的。
得到结果如下：
这里写图片描述
所以这样就使用了逻辑回归进行了多分类。采用多个逻辑回归算法，然后给出每个算法在每个点的概率，认为最大的概率就是需要的结果。

采用了这样的方法进行多分类有一些其他问题：
1）每次分类的时候，是一个对多个，当类别很多的时候，会导致类别不平衡的问题，这个时候可以采用多类别的逻辑回归。
2）任意的类似逻辑回归的算法都可以用来进行分类。

多分类与二分类

上节讲到如果采用OVA这样的算法，会导致类别不平衡的问题，那如果采用一个类别和另一个类别进行计算呢？就是OVO算法。
如下图所示：
这里写图片描述
这里只提取菱形和方块的分类，不采用全部的数据量，只使用这两个类别的数据，就不会导致类别不平衡的问题。
最后结果如下：

这个时候就需要 $C_n^2$ 个算法。最后进行预测的时候，通过投票的方式，多者胜出。貌似这样的方法还不错哟。

那么OVA 和OVO的区别有啥呢?
1)算法数量不一样，OVA远小于OVO的
2）OVA每次元运算都要全部资料，而OVO只需要一部分资料，OVO一次训练更快。
3）预测的时候OVA更快，因为算法量少，OVO时间长
一般来说OVO还是比较稳定的。

欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen

cqychen

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
林轩田之机器学习课程笔记（ how can machines learn之linear models for classification）（32之11）

概要通过线性模型进行二分类随机梯度下降通过逻辑回归进行多分类多分类与二分类欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要上节课讲述了逻辑回归，分析了逻辑回归的损失函数，采用了梯度下降的方式来求解。这节进行了延伸。通过线性模型进行二分类线性模型我们知道有线性回归以及逻辑回归。我们将三者的损失函数进行变形，设定s=wTxs=w^Tx，因为这个表示一个加权分
复制链接

扫一扫