从零开始机器学习（十一)

最新推荐文章于 2023-08-25 10:25:48 发布

live_for_myself

最新推荐文章于 2023-08-25 10:25:48 发布

阅读量217

点赞数 1

分类专栏：吴恩达老师机器学习笔记文章标签：机器学习 pytorch

本文链接：https://blog.csdn.net/landing_guy_/article/details/116880738

版权

吴恩达老师机器学习笔记专栏收录该内容

14 篇文章 3 订阅

订阅专栏

本文深入探讨了支持向量机（SVM）的优化目标和损失函数，如何从逻辑回归转换到SVM，并重点解析了参数C的作用。通过调整C的大小，SVM可以在大间距分类和过拟合之间找到平衡，实现更好的分类效果。大间距分类器的概念也被引入，说明了SVM为何能够实现稳健的决策边界。

摘要由CSDN通过智能技术生成

文章目录

前言

行。我不行了，看不懂了，这块先放着日后再看。先进行下一部分

正文

怎么得到SVM

下面先从优化目标开始讲起, 我们先看逻辑回归.
在这里插入图片描述
这里用 $z$ 表示 $\theta^Tx$ 。如果有一个 $y = 1$ 的样本，不管是在训练集中或是在测试集中，又或者在交叉验证集中，现在我们希望 ${{h}_{\theta }}\left( x \right)$ 趋近1。因为想要正确地将此样本分类，这就意味着当 ${{h}_{\theta }}\left( x \right)$ 趋近于1时， $\theta^Tx$ 应当远大于0，这是因为由于 $z$ 表示 $\theta^Tx$ ，当 $z$ 远大于0时，即到了该图的右边，此时逻辑回归的输出将趋近于1。相反地，如果我们有另一个样本，即 $y = 0$ 。我们希望假设函数的输出值将趋近于0，这对应于 $\theta^Tx$ ，或者就是 $z$ 会远小于0，因为对应的假设函数的输出值趋近0。

我们先看对于单个样本的分析：
在这里插入图片描述

当y为1时，图像是这样的：

在这里插入图片描述
可以看到Z很大的时候损失为0附近，现在我们对其进行一些修改：

可以看到修改后的图像在 $z = 1$ 后面为0, 1之前是类似logistic的一条直线

当y为0时，图像是这样的：

在这里插入图片描述

同样对其进行修改, 如下图:

在这里插入图片描述
这里-1之前是0, 之后是同样走势的直线.

现在，我们就开始构建支持向量机。

下面是我们原来的损失函数, 加入了正则项:
在这里插入图片描述

对于支持向量机而言，我们要将第一个log项替换为 ${\cos}t_1{(z)}$ ，也就是 ${\cos}t_1{(\theta^Tx)}$ ，同样也把第二log项替换为 ${\cos}t_0{(z)}$ ，也就是代价 ${\cos}t_0{(\theta^Tx)}$ 。这里的代价函数 ${\cos}t_1$ ，就是之前所提到的那条线。此外，代价函数 ${\cos}t_0$ ，也是上面所介绍过的那条线。因此，对于支持向量机，我们得到了这里的最小化问题，即:
在这里插入图片描述
当然按照支持向量机的惯例，书写会稍微有些不同，代价函数的参数表示也会稍微有些不同。

首先,我们要除去 $1 / m$ 这一项, 就像这样：

当然这只是因为惯例，并没有实际用处
在逻辑回归中，损失函数可以用 $A+\lambda\times B$ 来表示， A是前面的， B是正则化，如果给定 $\lambda$ ，一个非常大的值，意味着给予 $B$ 更大的权重，在SVM里，依照惯例使用一个不同的参数称为 $C$ ，同时更改优化目标， $C \times A + B$ ，之前B很大就对应于将 $C$ 设定为非常小的值，那么，相应的将会给 $B$ 比给 $A$ 更大的权重。因此，这只是一种不同的方式来控制这种权衡或者一种不同的方法，即用参数来决定是更关心第一项的优化，还是更关心第二项的优化。

我们就得到了支持向量机的优化函数：

最后有别于逻辑回归输出的概率。在这里，我们的代价函数，当最小化代价函数，获得参数 ${{\theta }}$ 时，支持向量机所做的是它来直接预测 $y$ 的值等于1，还是等于0。
在这里插入图片描述

因此，当 $\theta^Tx$ 大于或者等于0时，或者等于0时，这个假设函数会预测1。这就是支持向量机假设的变化

对SVM的进一步理解

人们有时将支持向量机叫做是大间距分类器 $（ L a r g e m a r g i n c l a s s i f i e r ）$ , 现在来直观理解下原因。
下面是我们的修改后的函数：
在这里插入图片描述

如果你有一个正样本，我们会希望 $\theta^Tx>=1$ ，反之，如果 $y = 0$ ，我们观察一下，函数 ${\cos}t_0{(z)}$ ，它只有在 $z < = - 1$ 的区间里函数值为0，所以希望 $\theta^Tx<=-1$ .

这里要区分一个点，我们希望在正样本时 $\theta^Tx>=1$ ，但是在预测时， $\theta^Tx>=0$ 就可以输出正类的结果，就是 $h_{(\theta^Tx)}=1$ $w h e n$ $\theta^Tx>=0$ . 当然对于支持向量机不能仅仅这样要求，我们希望预测的时候也可以 $\theta^Tx>=1$ 或者 $\theta^Tx<=-1$ , 这有什么好处呢？
很明显这样预测的正类与负类的间隔会更加明显，分类效果也比较好

对于参数C的理解

我们将这个常数 $C$ 设置成一个非常大的值，比如我们假设 $C$ 的值为100000或者其它非常大的数，观察一下支持向量机会给出什么结果？

因为目标是最小化下面的函数：
在这里插入图片描述

所以当 $C$ 很大时, 第一项会希望它近似为0, 那么我们怎么才能得到这样的结果呢?
之前提到, 当是正类时, $\theta^Tx>=1$ 可以让损失函数第一项为0, 同样对于负类, $\theta^T<=-1$ 可以让第一项为0, 这其实就对应了一个决策边界, 可以参考二分类里的决策边界:二分类

下图是两个类别的图:
在这里插入图片描述
决策界限满足: 正类时, $\theta^Tx>=1$ ; 负类时, $\theta^T<=-1$

当然可以有多个分类界限，如下：
在这里插入图片描述

支持向量机将会选择这个紫色的决策边界，相较于之前的决策界限。这条紫色的看起来好得多，看起来是更稳健的决策界。在分离正样本和负样本上它显得的更好。数学上来讲，这是什么意思呢？这条紫线有更大的距离，这个距离叫做间距(margin)。
在这里插入图片描述
当画出这两条额外的蓝线，我们看到紫色的决策界和训练样本之间有更大的最短距离。然而绿线和黑线离训练样本就非常近，在分离样本的时候就会比紫线表现差。因此，这个距离叫做支持向量机的间距，而这是支持向量机具有鲁棒性的原因，因为它努力用一个最大间距来分离样本。因此支持向量机有时被称为大间距分类器。其背后的数学原理将在之后解释。