机器学习----支持向量机（引入）

最新推荐文章于 2024-06-04 08:00:00 发布

这题我会啊

最新推荐文章于 2024-06-04 08:00:00 发布

阅读量464

点赞数 1

分类专栏： machine-learning 文章标签：机器学习 svm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Love_wanling/article/details/68926113

版权

machine-learning 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

遭遇问题

在机器学习—-线性模型里我们说到了Logistic Regression，解决二分类问题：

L o g i s t i c (x) = 1 1 + e - x

$Logistic(x) = \frac{1}{1+e^{-x}}$ 图像为：

logistic regression

它把输出为范围为R的变量，压缩到（0,1），从而完成分类问题：输出大于0.5为正例，小于0.5为反例，等于0.5均可。得到的值可以为“正例置信率”，也可以作为正例的概率。我们的学习目的是找到 $\theta$ ，使logistic( $\theta ^\mathrm{ T } x$ )在label为正的时候值接近1；同理，在label为负的时候，logistic（ $\theta ^\mathrm{ T } x$ ）接近0。上述等价为：label为正， $\theta ^\mathrm{ T } x\gg0;label为负，\theta ^\mathrm{ T } x\ll0$ 。我们用图来形象的表达：

svm

我们的任务就是找到一条直线使得所有点都尽量远离该直线。怎么定义所有点都尽量远离呢？我们着眼与离线最近的点，它们尽量远离即可，而不是全局最优。关于这点我们后面讨论，这有点结构风险最小化的意思。

数学分析

先来数学上形式化表示远离程度。
一般有两种思路，但是本质是一样的：

函数间隔

之前也说了，我们要label为正时， $\theta ^\mathrm{ T } x\gg0;label为负时，\theta ^\mathrm{ T } x\ll0$ ，即 $y_i\cdot \theta ^\mathrm{ T } x_i\gg0$ 。记：

γ^i = y i θ T x i

$\hat \gamma_i=y_i \theta ^\mathrm{ T } x_i$
综合我们之前说的要离线最近的尽可能远，即置信率低的尽可能高，所以我们考察的函数间隔为：

γ^= m i n i = 1, 2, . . ., m γ^i

$\hat\gamma=\mathop{min}_{i=1,2,...,m}\hat\gamma_i$
我们省去了0次项的书写，因为x为扩展形式，

x=[x　1] $x=[x　1]$

几何间隔

直观来看，就是点到直线距离尽可能大，如图：

svm2

我们通过向量运算解得B点坐标，再带入 $\theta ^\mathrm{ T } x=0$ 即可。直线方向向量为 $\theta ^\mathrm{T}$ ,单位法向量为 $\theta/||\theta||$ ，所以B点坐标为

x i - θ | | θ | | γ i

$x_i-\frac{\theta}{||\theta||}\gamma_i$
带入公式，为：

θ T \cdot (x i - θ | | θ | | γ i) = 0

$\theta ^\mathrm{ T }\cdot (x_i-\frac{\theta}{||\theta||}\gamma_i)=0$
解得：

γ i = θ T x i | | θ | |

$\gamma_i=\frac{\theta ^\mathrm{T}x_i}{||\theta||}$
同理定义几何间隔：

γ = m i n i = 1, 2, . . ., m γ i

$\gamma=\mathop{min}_{i=1,2,...,m}\gamma_i$

可见函数间隔和几何间隔其实是一个东西，只是几何间隔是函数间隔的归一化。

γ = γ ^ | | θ | |

$\gamma=\frac{\hat\gamma}{||\theta||}$

变成规划问题

现在用数学形式化的表达整个问题—–在满足分类条件的情况下使得间隔最大：

m a x γ ^ | | θ | | s . t . y i \cdot θ T x i \geq γ, i = 1, 2, . . ., m

$\mathop{max} 　\frac{\hat\gamma}{||\theta||}\\ s.t.　 y_i\cdot \theta ^\mathrm{T}x_i\geq\gamma　,i=1,2,...,m$
但是

γ $\gamma$ 不是凸函数，所以改写成：

m i n 1 2 | | θ | | 2 s . t . y i \cdot θ T x i \geq 1, i = 1, 2, . . ., m

$min　\frac{1}{2}||\theta||^2\\ s.t.　 y_i\cdot \theta ^\mathrm{T}x_i\geq1　,i=1,2,...,m$
上式转换，解释为：目标函数为凸了，令

γ^=1 $\hat\gamma=1$ 。之所以能这么令，是因为

γ^ $\hat\gamma$ 和

θ $\theta$ 同步变化都满足解。问题已经明了了，接下来就是怎么解了。

这题我会啊

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习----支持向量机（引入）

SVM的引入
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。