机器学习技法第五周学习笔记

最新推荐文章于 2019-12-03 10:07:56 发布

SilenceHell

最新推荐文章于 2019-12-03 10:07:56 发布

阅读量204

点赞数

分类专栏：机器学习技法学习笔记

本文链接：https://blog.csdn.net/Du_Shuang/article/details/82118699

版权

机器学习技法学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.Soft-Margin SVM as Regularized Model
我们对hard-margin svm和soft-margin svm进行回顾，我们首先求出问题的基本式，然后转换成对偶式，最后对对偶式利用二次规划工具求解。
hard-margin svm的条件物理意义为希望数据能够全部分对即Ein=0.最小化式子的物理意义为希望使求出边界最大的分割线。
soft-margin svm的条件物理意义为希望数据能够全部分对，但是能够容忍一定的错误，并记录错误的大小。最小化式子的物理意义为希望使求出边界最大的分割线，但是同时错误最小。
最下面为推荐的两个库，是台湾大学制作的SVM库。
这里写图片描述
如果点离分割线的距离大于1即在边界外，那么此时没有分错ξ将会是等于0的，如果点离分割线的距离小于1但是大于0，那么数据也不会被分错，但是仍然会被扣分，此时ξ将不为0，如果点离分割线的距离小于0，那么数据会被分错，会被扣去较多的分。其中 $y_n(w^Tz_n+b)$ 为点离分割线的距离。 $1-y_n(w^Tz_n+b)$ 为点离线的最远边界的距离。
然后我们能够将数据整合成一个式子，如下如所示。
这里写图片描述
这个式子和L2 regularization是类似的，可以写成一个最小化式子和一个限制条件的和，并且求其最小值。
那么我们为什么不直接其进行求解呢？非要利用svm的解法求解呢？
很简单，因为这不是个QP问题，不能使用核技巧，并且max运算符不能够微分，所以很难求解。
这里写图片描述
我们将正则化和svm的关联进行总结。
一般的正则化：希望Ein最小，但是给一个限制条件，比如之前的正则化，我们希望Ein最小，但是我们通过条件限制了H的大小。
hard-margin SVM：我们希望所求边界最宽，给定限制条件Ein必须等于0。
L2 regularization:希望所求边界宽度和Ein的和最小，即Ein要小，w也要小。
soft-margin SVM: 在L2 regularization的基础上增加了一个调节因子C。
这里C相当于L1里面的λ。大的C和小的λ相当于小的正则化。
这里写图片描述
既然我们不能够用SVM的正则化形式求解，那么我们为什么要进行正则化呢？主要是因为这样我们能够用正则化形式将SVM与其他模型联合起来进行分析比较。

2.SVM versus Logistic Regression
现在我们就通过SVM的正则化形式将其与我们之前的几种分类算法进行比较。
首先是01错误（最基本的错误）：
这里写图片描述
然后是SVM的错误，当ys大于1时错误为0当小于1时错误成线型。

然后是逻辑回归的错误：

对比三种错误曲线，SVM和LRE都是01错误的上限，并且最大值和最小值都相等。所以这两种错误相似。
三种错误的优缺点如下：
这里写图片描述
由上我们可知逻辑回归和svm的错误曲线是类似的，所以我们可以说逻辑回归是svm的近似，但是这个结论反过来正不正确呢？我们能不能用svm来对数据点为0或者1的概率进行预测呢？

3.SVM for Soft Binary Classification
这一节我们介绍怎么才能利用SVM对数据是0或者1的概率进行估计。
一个直观的想法是，我们直接对SVM求出的值带入逻辑斯函数求得概率，实际上这个方法求得的值很接近真实的值，但是这样我们失去了我们在逻辑回归中所推导出来的一些结果。
另一个直观的想法是我们利用svm求出的结果作为w0作为逻辑回归的递推初始值。
但是这个方法并不比直接使用逻辑回归简单，并且丧失了svm核函数的优势。
这里写图片描述
为了中和两种方法的优势，于是有人提出了第三种想法：
首先利用svm求出一个分数，然后对这个分数进行一阶逻辑回归。
通常的结果是A为正，B接近0，因为这样也体现除了svm和逻辑回归的接近程度。

那么这样做的道理是什么呢？
我们首先利用svm求得(b,w)这相当于将x转换到了一个z空间。相当于利用了svm核函数的优势。
然后对这个z空间的数据进行逻辑斯回归。
这样我们就中和了这两个方法的优势。
这个结果和svm的结果相似。
这里写图片描述

4.Kernel Logistic Regression
上述我们是首先将数据通过svm转换到z空间然后求解，这节我们将直接在z空间进行求解，而不需要svm的转换。
我们发现只要w能够由z线型表示，那么我们的结果用能使用核函数。而我们知道SVM,PLA和LogReg by SGD的w都是z的线型组合。
这里写图片描述
我们发现，只要w的求解满足L2正则化形式，那么我们的w就能被 $z_n$ 线型表示。

接下来我们用 kernel的方法来求解logistic Regression该方法称为Kernel Logistic Regression.
我们直接将w表示成 $z_n$ 的线型组合，然后直接带入原式利用帝都下降法求解。
这里写图片描述
上述模型的另一种解释：不是很懂这个幻灯片的意义。