SVM与Logistic回归

最新推荐文章于 2022-12-18 23:44:22 发布

Matrix-yang

最新推荐文章于 2022-12-18 23:44:22 发布

阅读量1.3k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_21768483/article/details/86251915

版权

机器学习专栏收录该内容

42 篇文章 12 订阅

订阅专栏

逻辑回归

$h_\theta(x)= \dfrac1{1+e^{-\theta x}}$

如果y=1,则我们希望 $h_\theta(x) \approx1$ ，则必须要 $\theta x \gg0$
如果y=0,则我们希望 $h_\theta(x) \approx0$ ，则必须要 $\theta x \ll0$
在这里插入图片描述

逻辑回归的损失函数

单个样本的损失为:

$loss=-(y\log{h_\theta(x))}+(1-y)\log(1-h_\theta(x)))$
这个函数图像分为当y=1时和y=0时：
在这里插入图片描述
如果y=1,为试损失最小我们期望 $z=\theta x \gg0$
如果y=0,为使损失最小我们期望 $\theta x \ll0$

逻辑回归的损失函数

$loss=\dfrac 1 m \sum\limits_{i=1}^m{-(y^i\log{h_\theta(x^i))}+(1-y^i)\log(1-h_\theta(x^i)))}+\dfrac \lambda {2m}\sum\limits_{i=1}^n\theta^2$
其中m为样本个数，n为特征维数 $y^i$ 和 $x^i$ 分别代表第i个样本的标签和特征。 $\lambda$ 是正则化参数的权重

svm的损失函数

$\sum\limits_{i=1}^m[{y^iCost_1(\theta x^i)+(1-y^i)iCost_2(\theta x^i)}]+\sum\limits_{i=1}^n\theta^2$

svm的损失函数对比逻辑回归的损失函数

对比逻辑回归的损失函数发现他们非常相似。上图的粉红色线即svm的算是函数曲线。
在两个函数中C，m， $\lambda$ 均为常数，svm的损失函数可以看做逻辑回归的损失函数的单个样本乘以
$C * m$ ,正则化项乘以 $\dfrac {2Cm} \lambda$ ,乘以这些常数再求min的过程中并不会改变 $\theta$ 的解。所以我们说他们比较相似，简单来说就是逻辑回归把权重放在了正则化项上 $\sum\limits_{i=1}^n\theta^2$ ,而SVM把权重放在了样本分类情况的损失项上。

损失函数的特性

C是常数，当C非常大是SVM更倾向于尽可能将样本全部分类正确
当C比较小是SVM更倾向于找出尽可能大的软间隔

svm为啥能使间隔最大化？

当y=1时

svm的损失函数简化为：
$\sum\limits_{i=1}^m[{y^iCost_1(\theta x^i)}]+\sum\limits_{i=1}^n\theta^2$
图像大致如下：
在这里插入图片描述
我们不妨假设在训练时我们为了求min（loss）已经使 $\theta x^i$ >1,这样 $\sum\limits_{i=1}^m[{y^iCost_1(\theta x^i)}]=0$ ,损失函数继续被简化
$loss=\sum\limits_{i=1}^n\theta^2$
$\space \space \space \space \space \space \space \space \theta x^i >1$
不妨假设一下x是在二维空间空间上的点 $x_1,x_2)$ , $\theta$ 为 $(\theta_1,\theta_2)$
在这里插入图片描述
可知 $\theta x^i=p^i||\theta||$
$p^i$ 是 $x^i$ 在 $\theta$ 方向投影的长度， $||\theta||$ 为 $\theta$ 的长度。
（因为 $\theta$ 是直线的法向量， $p^i$ 即点到直线的距离）
现在对简化后的随时函数和条件进行变换
$\begin{aligned} loss &=\sum\limits_{i=1}^n\theta^2 \\ &=\theta_1^2+\theta_2^2 \\ &=(\sqrt{\theta_1^2+\theta_2^2} \space)^2\\ &=||\theta||^2 \end{aligned}$
$\space \space \space \space \space \space \space \space \theta x^i =p^i||\theta|| >1$

现在结果变得清晰，为使loss最小，必然会使 $||\theta||$ 最小，由于 $p^i||\theta|| >1，$ 最小化 $||\theta||$ 必然会使 $p^i$ 最大才能满足条件。而 $p^i$ 正是点到分界线的距离。所以使得间隔最大化。

当y=0时，原理同y=1时

一图分割线没有二图的好
在这里插入图片描述

核函数

高斯核

$f_1=\exp ({-\dfrac {||x-l_1||^2} {2\sigma^2}} )$
高斯核实际上对原坐标点进行了一次求相似性的操作：
越近核的坐标越趋向于1，否则输出趋向于0

在这里插入图片描述

$\sigma$ 因子的影响

在这里插入图片描述

核函数不止有高斯核一种，但是高斯核最常用，随便构造核函数风险大

使用核函数后SVM的变换

未使用时

如果需要预测y=1,需要 $\sum \theta_ix_i >0$

使用时

如果需要预测y=1,需要 $\sum \theta_if_i >0$
注意: $f_i$ 表明每一维特征都可以用不同的核函数。

使用核函数后边界变化

在这里插入图片描述

使用情况

在Andrew Ng的机器学习视频中提到SVM和logistic回归的适用情形：
m是样本数，n是特征的数目
1、如果n相对于m来说很大，则使用logistic回归或者不带核函数的SVM（线性分类）
2、如果n很小，m的数量适中（n=1-1000，m=10-10000），使用带核函数的SVM算法
3、如果n很小，m很大（n=1-1000,m=50000+）,增加更多的特征，然后使用logistic回归或者不带核函数的SVM。