【Machine Learning, Coursera】机器学习Week7 支持向量机

最新推荐文章于 2020-02-17 19:35:07 发布

Aki-Z

最新推荐文章于 2020-02-17 19:35:07 发布

阅读量302

点赞数

分类专栏：机器学习文章标签： SVM 机器学习

本文链接：https://blog.csdn.net/weixin_42395916/article/details/82875006

版权

机器学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

Support Vector Machine (SVM)

本节内容：
支持向量机(SVM)是一种监督式分类学习算法，它非常适合于线性可分数据的分类。本节介绍SVM目标函数的形式和SVM的特点。

相关机器学习概念：
支持向量机(Support Vector Machine, SVM)
大间隔分类器(Large Margin Classifiers)
线性可分数据(Linear Separable)

1. Optimization Objective

回顾logistic回归，我们有以下规定：
预测 $y = 1$ 时，有 $h_\theta(x)≈1$ ， $\theta^T x≥0$
预测 $y = 0$ 时，有 $h_\theta(x)≈0$ ， $\theta^T x≤0$

logistic回归的损失函数(unregularized)：
$J(\theta)=\frac{1}{m}\sum_{i=1}^{m}[-y^{(i)}log(\frac{1}{1+e^{-\theta^T x^{(i)}}})-(1-y^{(i)})log(1-\frac{1}{1+e^{-\theta^T x^{(i)}}})]$

为了构造SVM，我们修改 $-log(\frac{1}{1+e^{-\theta^T x}})$ 项，使得当 $z=\theta^T x≥1$ 时输出0， $z \leq 1$ 时，我们用一条单调递减的直线替代原有的sigmoid函数。同样地，修改 $-log(1-\frac{1}{1+e^{-\theta^T x}})$ 项，使得当 $z \leq - 1$ 时，输出0， $z \geq - 1$ 时，则用一条单调递增的直线替代原有的sigmoid函数：
在这里插入图片描述

将修改的两项分别记作 $cost_1(z)$ 和 $cost_0(z)$ ， $cost_1(z)$ 是y=1时的分类损失， $cost_0(z)$ 是y=0时的损失：
$z=\theta^T x$
$cost_1(z)=max\{0,k(1-z)\}$
$cost_0(z)=max\{0,k(1+z)\}$

将以上表达式替换进logistic回归的损失函数表达式，可以得到SVM的损失函数(regularized)：
$J(\theta)=\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}cost_1(\theta^T x^{(i)})+(1-y^{(i)})cost_0(\theta^T x^{(i)})]+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$

我们可以通过乘以一个常数m来优化该表达式，这不会影响参数的优化结果：
$J(\theta)=\sum_{i=1}^{m}[y^{(i)}cost_1(\theta^T x^{(i)})+(1-y^{(i)})cost_0(\theta^T x^{(i)})]+\frac{\lambda}{2}\sum_{j=1}^n\theta_j^2$

更进一步，根据惯例，我们用C，而不是 $\lambda$ 作为正则化参数：
$J(\theta)=C\sum_{i=1}^{m}[y^{(i)}cost_1(\theta^T x^{(i)})+(1-y^{(i)})cost_0(\theta^T x^{(i)})]+\frac{1}{2}\sum_{j=1}^n\theta_j^2$

上式就是SVM的损失函数的最终表达形式。不难看出 $C=\frac{1}{\lambda}$ . 之所以这样处理，是因为在SVM中我们希望控制的是目标函数的前一项。过拟合时，我们减小C，欠拟合时，增大C。

需要注意的是，不同于logistic回归的假设函数，SVM的假设函数输出的不是y=0或1的概率，它的输出非1即0：
在这里插入图片描述

2. Large Margin Intuition

SVM是一类大间隔分类器(Large Margin Classifiers)，所谓间隔，指的是决策边界到最近的样本的距离。SVM的决策边界总是尽可能地远离正样本和负样本，将正样本和负样本以一个大的间隔区分开来。

如果我们有以下线性可分(Linear Separable)的样本，SVM会选择下图中黑线决定的决策边界，而非绿线或者粉线。
（线性可分是指可用一条直线将正负样本区分开来）
在这里插入图片描述

为什么SVM会得到这样一个决策边界呢？

可以看到，对于SVM，为了最小化 $cost_1(z)$ 和 $cost_0(z)$ 的值：
如果 $y = 1$ ，我们希望 $\theta^T x≥1$ ，而不仅仅是 $\theta^T x≥0$
如果 $y = 0$ ，我们希望 $\theta^T x≤-1$ ，而不仅仅是 $\theta^T x≤0$
这一更高的要求相当于在SVM中嵌入了一个安全的距离因子。

这一距离因子只有当常数C的值很大时才会发挥作用。如果我们设置的常数C非常大（如C=100,000），为了最小化目标函数，参数优化会让C所控制的 $\sum_{i=1}^{m}[y^{(i)}cost_1(\theta^T x^{(i)})+(1-y^{(i)})cost_0(\theta^T x^{(i)})]$ 项尽可能地等于零。目标函数简化为：
$J(\theta)=C·0+\frac{1}{2}\sum_{j=1}^n\theta_j^2=\frac{1}{2}\sum_{j=1}^n\theta_j^2$

需要注意的是，为了让SVM这类大间距分类器发挥其优势，我们通常将C的值设置的很大，但这会导致SVM容易受到异常点(outlier)的影响，因此不适用于数据线性不可分的情况。
对于下图的样本数据，用黑线划分显然比粉线看起来更加自然。但如果C设置的很大，那么一个异常点就会把决策边界从原来的黑线变为粉线。为了避免异常点的影响，需要将C的值调小一些，以得到更好的分类结果。
在这里插入图片描述