机器学习基石第十一周笔记

最新推荐文章于 2022-05-19 10:08:02 发布

SilenceHell

最新推荐文章于 2022-05-19 10:08:02 发布

阅读量276

点赞数

分类专栏：机器学习基石学习笔记

本文链接：https://blog.csdn.net/Du_Shuang/article/details/81569268

版权

机器学习基石学习笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

一.Linear Models for Binary Classification
之前学习了三种线型模型，线型分类的规律就是都对数据进行加权求得一个分数，然后对分数进行处理，我们知道三种线型模型都能用来分类，那么他们之间有什么区别呢？我们首先复习一下三种模型的错误函数。
这里写图片描述
然后对上诉三种错误函数进行变形，将他们的变量都变为ys，为了将他们的图形画在同一个坐标系进行分析。
Linear regression的最终错误函数是在之前的错误函数后乘以一个y^2而y^2=1所以结果不变，在将y^2带入括号所得。
这里写图片描述
将上述三种错误图形画在同一个坐标系的图像如下：

我们发现在0附近逻辑回归的错误在01错误下面，为了方便之后分析我们将逻辑回归错误的ln换底为log结果如下所示：

然后我们就能发现01错误的上限能够被线型回归和逻辑回归的错误代替。
这里写图片描述
那么这样有什么好处呢？PLA的好处就是精确错误函数最小能够保证学到最好的分类效果，不足之处就是如果数据线型不可分那么运算速度将会很大，线型回归和逻辑回归的好处就是优化函数求解很容易，不足是错误函数太大不能保证学到的一定是好的结果。
我们通常做的就是首先用回归学到一个比较好的W然后将其作为w0放到PLA的pocket里面去加速迭代。还有就是逻辑回归一般表现效果要好于pocket，我们建议使用逻辑回归进行分类。
这里写图片描述

二.Stochastic Gradient Descent
接下来我们介绍随机梯度下降法。
之前逻辑回归用的梯度下降法虽然效果很好但是每次迭代都要计算所有的数据点，当数据量很大时这将非常耗时就和pocket一样，这时随机梯度下降法应运而生。
这里写图片描述
还记得梯度下降法之前的那个1/n吗？那个是我们人为加的，为什么加呢？就是为了现在推导随机梯度下降法。
梯度下降法求V时会对n个数据进行处理然后求和最后除以n，就相当于求了平均一样，那我们现在就直接只对一个数据点进行处理不求和也不求平均，当迭代次数变多之后，他们的结果应该相等。
这里写图片描述
如下图所示，单个数据处理结果=n个数据平均处理结果+期望值为0的的noise。当对它们乘1000时总的结果变成1000*单个数据处理结果=1000 *n个数据平均处理结果即最终效果一模一样。

其实随机梯度法PLA的求解方法很像，当η为1，它们几乎相同，只是当随机的数据点正确时，SGD更新的比较多（但少于1）当随机的数据点错误时SGD更新的比较少（但大于0）.
但是SGD存在两个问题，第一个就是其结束条件是什么，第二个就是η到底选什么值比较好。
根据经验：结束条件是当迭代次数足够大的时候，但是具体是多大由你决定。
η选取0.1是比较好的。
这里写图片描述

三.Multiclass via Logistic Regression
接下来讲多分类，如下图最后一排图所示我们每次将其中的一类当成我们的+1其余的三类当成-1，这样我们就能求得一个线型分类器，然后我们在将另一个当成+1，其余的当成-1，又能求得一个分类器，这样学习四次我们就能获取四个分类器，最后我们将这四个分类器合并我们就能得到下图右方的结果。但是这存在一个问题，在不同的分类器相交的地方会产生冲突，如图四个边的圈圈所示，而分类器不相交的地方将会被遗弃不进行分类，如图中间的圈圈所示。
这里写图片描述
那怎么办呢？我们这里使用软分类，即使用逻辑回归为每个数据都求出一个概率，然后求数据点最大的概率所代表的类别。

上述算法步骤如下图所示

以上方法还是有一个缺点，那就是当类别很多的时候比如说一百种，当其中一种为正其余九十九种为负，分类器可能会将这100种都分类为负，因为正的数据太小了，可能会被当成noise忽略掉。一种改进的方法是添加一个条件，将一个数据点所有可能的概率和限制为1。
这里写图片描述
四.Multiclass via Binary Classification
之前用二分类进行多分类貌似不行，这里将介绍一个用二分类进行多分类的方法，并且它能解决上面的软分类所面临类别过多不精确的问题。
对四分类问题，我们每次只拿出两个类别进行分类总共会有6次分类。就是说每个数据点都将会被分类6次，我们选择被分类最多的那种类别为其所代表的的类别即可。
这里写图片描述

算法如下：

上述算法的问题是花费的时间和资料量将会很大。