NG机器学习总结-(七)SVM支持向量机

一、损失函数

在逻辑回归中,我们的预测函数和损失函数为:

预测函数:

h_{\theta}(x)=\frac{1}{1+e^{-\theta^{T}x}}

损失函数:

cost=-ylogh_{\theta}(x)+(1-y)log(1-h_{\theta}(x))

我们知道当y分别是1和0的时候,其cost函数如下黑色曲线部分:

 

不难看出,当 y=1时,随着 z 取值变大,预测损失变小,因此,逻辑回归想要在面对正样本 y=1时,获得足够高的预测精度,就希望 z=\theta^{T}x\gg 0。而 SVM 则将上图的曲线拉直为图中的折线,构成了 y=1时的代价函数曲线  cost_{1}(z),如上图的蓝色直线部分,因此当y=1的时候,为了预测精度足够高,SVM希望\theta^{T}x\geq 1。同样的,在y=0的时候,为了预测精度足够高,SVM希望\theta^{T}x\leq -1

我们知道,在逻辑回归中,加上正则化项后的损失函数为:

min-\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]+\frac{\lambda }{2m}\sum_{j=1}^{n}\theta_{j}^{2}

而SVM定义其损失函数为:

minC[\sum_{i=1}^{m}y^{(i)}cost_{1}(\theta^{T}x^{(i)})+(1-y^{(i)})cost_{0}(\theta^{T}x^{(i)})]+\frac{1}{2}\sum_{j=1}^{n}\theta_{j}^{2}

事实上,我们可以将逻辑回归的损失函数简要描述为:

cost=A+\lambda B

而SVM的损失函数描述为:

cost=CA+ B

即,在逻辑回归中,我们通过正规化参数 λ调节 A、B 所占的权重,且 A 的权重与 λ 取值成反比。而在 SVM 中,则通过参数 C调节 A、B 所占的权重,且 A的权重与 C 的取值成反比。亦即,参数 C 可以被认为是扮演了 1\λ 的角色。

二、大间距分类器

上一节中,SVM的最小损失函数的过程为:

minC[\sum_{i=1}^{m}y^{(i)}cost_{1}(\theta^{T}x^{(i)})+(1-y^{(i)})cost_{0}(\theta^{T}x^{(i)})]+\frac{1}{2}\sum_{j=1}^{n}\theta_{j}^{2}

并且,C取值很大,当y^{(i)}=1的时候,SVM希望\theta^{T}x^{(i)}\geq 1;而当y^{(i)}=0的时候,SVM希望\theta^{T}x^{(i)}\leq -1。因此上述最小化损失函数又可以描述为:

min \frac{1}{2}\sum_{j=1}^{n}\theta_{j}^{2} \\ \begin{align*} s.t.\quad\theta^{T}x^{(i)}\geq 1 \quad if \quad y^{(i)}=1\\ \theta^{T}x^{(i)}\leq -1 \quad if \quad y^{(i)}=0 \end{align*}

SVM 最终找出的决策边界会是下图中三条平行的蓝色直线所示的决策边界,而不是另外两条的决策边界。该决策边界保持了与正、负样本都足够大的距离,因此,SVM 是典型的大间距分类器(Large margin classifier)。

为什么求解SVM的最小损失函数就能得到最大化间距呢?这里面有一个有关向量内积的知识点。

假设我们现在又两个二维的向量:

u=\begin{bmatrix} u_{1}\\ u_{2} \end{bmatrix}v=\begin{bmatrix} v_{1}\\ v_{2} \end{bmatrix}

令p为v投影到u的线段长,如下图所示:

则u,v的内积为:

u^{T}v=p\cdot ||u||=u_{1}v_{1}+u_{2}v_{2}

其中,||u||为u的范数,也就是向量u的长度。

假定我们的\theta=\begin{pmatrix} \theta_{1}\\ \theta_{2} \end{pmatrix},则有:

min\frac{1}{2}\sum_{j=1}^{2}\theta_{j}^{2}=min\frac{1}{2}||\theta||^{2}

由向量内积公式可得:

\theta^{T}x^{(i)}=p^{(i)}\cdot ||\theta||

其中,p^{(i)}为特征向量x^{(i)}\theta上的投影:

y^{(i)}=1时,我们希望\theta^{T}x^{(i)}\geq 1,就是希望p^{(i)}\cdot ||\theta||\geq 1,此时考虑两种情况:

(1)当p^{(i)}很小,则需要||\theta||很大,这与min\frac{1}{2}||\theta||^{2}矛盾。

(2)当p^{(i)}很大,则需要||\theta||很小,如下图所示,即样本与决策边界的距离足够大,此时我们才能在既要 ||\theta||足够小的情况下,又能有\theta^{T}x^{(i)}\geq 1,保证预测精度够高。这就解释了为什么 SVM 的模型会具有大间距分类器的性质了。

三、核函数

以上是数据线性可分的情况,然而真实情况下,很多时候数据都不是线性可分的。在逻辑回归中,我们会通过扩展多项式来处理非线性可分的问题:

h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}x_{1}x_{2}+\theta_{4}x_{1}^{2}+\theta_{5}x_{2}^{2}+...

假设我们令:

f_{1}=x_{1},f_{2}=x_{2},f_{3}=x_{1}x_{2},f_{4}=x_{1}^{2},f_{5}=x_{2}^{2}...

预测函数为:

h_{\theta}(x)=\theta_{0}+\theta_{1}f_{1}+\theta_{2}f_{2}+\theta_{3}f_{3}+\theta_{4}f_{4}+\theta_{5}f_{5}+...

但多项式回归所带来的高阶项不一定作用明显,针对这一问题,SVM 不会引入高阶项来作为新的特征,而是会选择一些标记点(landmark),并将样本x与标记点l^{(i)}的相似程度作为新的训练特征f_{i}:

f_{i}=similarity(x,l^{(i)})

相似度量方式就称之为核函数(Kernel),最常见的核函数是高斯核函数(Gaussian Kernel):

f_{i}=exp(-\frac{||x-l^{(i)}||^{2}}{2\delta^{2}})

我们发现如果样本点与标记点足够近的话,既x\approx l^{(i)},则 :

f=exp(-\frac{0^{2}}{2\delta^{2}})\approx 1

如果样本点与标记点足够远的话,则有:

f=exp(-\frac{(large number)^{2}}{2\delta^{2}})\approx 0

下面是具体的参数例子:

TIPS:在使用高斯核函数前,需要做特征缩放(feature scaling),以使 SVM 同等程度地关注到不同的特征。

有了核函数后,我们标记点应该怎么选择呢?假设我们有如下的数据集:

(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})...(x^{(m)},y^{(m)})

我们就将每个样本作为一个标记点:

l^{(1)}=x^{(1)},l^{(2)}=x^{(2)},l^{(3)}=x^{(3)}...l^{(m)}=x^{(m)}

则对于样本(x^{(i)},y^{(i)}),我们计算其与各个标记点的相似度:

\begin{align*} &f_{1}^{(i)}=sim(x^{(i)},l^{(1)}) \\ &f_{2}^{(i)}= sim(x^{(i)},l^{(2)}) \\ &...\\ &f_{m}^{(i)}=sim(x^{(i)},l^{(m)}) \end{align*}

得到新的特征向量:f\in \mathbb{R}^{m+1}

f=\begin{pmatrix} f_{0}\\ f_{1}\\ f_{2}\\ \vdots \\ f_{m} \end{pmatrix} \quad f_{0}=1

则具备核函数的SVM的损失函数如下:

minC[\sum_{i=1}^{m}y^{(i)}cost_{1}(\theta^{T}f^{(i)})+(1-y^{(i)})cost_{0}(\theta^{T}f^{(i)})]+\frac{1}{2}\sum_{j=1}^{n}\theta_{j}^{2}

四、总结

基本上到这里,SVM的基础知识就总结完了,当然NG以简单易懂的方式介绍了SVM算法,其中还有很多的细节问题这里就不做过多的描述,有兴趣的可以移步到机器学习那本书去学习。

作为当今最为流行的分类算法之一,SVM 已经拥有了不少优秀的实现库,如 libsvm 等,因此,我们不再需要自己手动实现 SVM(要知道,一个能用于生产环境的 SVM 模型并非课程中介绍的那么简单)。

在使用这些库时,我们通常需要声明 SVM 需要的两个关键部分:

  1. 参数 C
  2. 核函数(Kernel)

由于 C 可以看做与正规化参数 λ作用相反,则对于 C 的调节:

  • 低偏差高方差,即遇到了过拟合时:减小 C值。
  • 高偏差低方差,即遇到了欠拟合时:增大 C值。

而对于核函数的选择有这么一些 tips:

  • 当特征维度 n 较高,而样本规模 m 较小时,不宜使用核函数,否则容易引起过拟合。
  • 当特征维度 n 较低,而样本规模 m 足够大时,考虑使用高斯核函数。不过在使用高斯核函数前,需要进行特征缩放(feature scaling)。

另外,当核函数的参数 δ 较大时,特征 fi 较为平缓,即各个样本的特征差异变小,此时会造成欠拟合(高偏差,低方差)

当 δ 较小时,特征 fifi 曲线变化剧烈,即各个样本的特征差异变大,此时会造成过拟合(低偏差,高方差)

当然不是所有的相似度评估手段都能被用作SVM核函数,他们需要满足 Mercer 理论(具体的请参考资料,我也不太明白)。

对于多分类问题,通常,流行的SVM库已经内置了多分类相关的 api,如果其不支持多分类,则与逻辑回归一样,使用 One-vs-All 策略来进行多分类。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值