SVM听课笔记

最新推荐文章于 2022-08-20 23:49:11 发布

CTTACM

最新推荐文章于 2022-08-20 23:49:11 发布

阅读量280

点赞数

分类专栏：机器学习文章标签： svm

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

考虑如何用决策边界划分空间
找一条直线，这条直线会让分隔正负例的街道最宽，那么，如何制定一条决策规则来使用这个决策边界。

w * u > = c (c 是 常 数 ， 这 里 * 代 表 点 积)

$w*u>=c(c是常数，这里*代表点积)$

点积的作用就是让向量 $u$ 往 $w$ 上面投影，投影越大未知向量就会在街的越右边，投影就会越过街道的中线，这时，我们就说例子是正例，或者，不失一般性的，若满足：

w * u + b > = 0,

$w*u+b>=0,$

则是正例。这就是我们的决策规则。
问题在于，我们不知道要用什么常数，也不知道用哪个 $w$ ，只知道 $w$ 必须垂直于街道的中线。但是因为 $w$ 的长度是不确定的，所以垂直于街道中线的 $w$ 可以有很多。
加入我们想把正例和负例分开的更明显一点。我们规定：

w * x + + b > = 1 (x + : 正 例, y = + 1) w * x + + b < = - 1 (x - : 负 例, y = - 1)

$w*x_++b>=1(x_+:正例,y=+1)\\ w*x_++b<=-1(x_-:负例,y=-1)$

即，当函数的值大于等于1的时候才算正例，小于等于-1的时候才算负例。加入我们说正例有正的程度，负例有负的程度，为了统一评价他们的这种程度（也就是让“程度”有可比性）我们给出一个新的函数 $σ（x_i） = y_ig(x_i)$
这样就出现了：

y i (w * x i + b) > = 1 ， 正 例 y i (w * x i + b) > = 1 ， 负 例

$y_i(w*x_i+b)>=1，正例\\ y_i(w*x_i+b)>=1，负例$

即：

y i (w * x i + b) - 1 > = 0

$y_i(w*x_i+b)-1>=0$

这就是我们的约束条件，这组公式保证了所有的样本点都不会出现在-1~1之间，也就避免了出现不可分的情况。当 $y_i(w*x_i+b)-1=0$ 时，对边缘处的所有样本正好成立。
接下来，我们还需要表达出两个边缘之间的距离，即街道的宽度。
我们通过求两个向量的差来求。
图
如果有一个单位法向量，垂直于街道的中线，做这个单位法向量于这个差向量的点积，聚会得到街道的宽度。

w i d t h = （ x + - x - ） * w | | w | | （ w | | w | | 代 表 单 位 法 向 量 ）

$width = （x_+-x_-）* \frac w {||w||}（\frac w {||w||}代表单位法向量）$

求得后是一个标量。
由前面的公式得知：
当处于正例边缘时： $y_i=+1,=>w*x_+=1-b$
当处于负例边缘时： $y_i=-1,=>w*x_+=1+b$
把这两个带入 $width$ 公式得到：

w i d t h = 2 | | w | |

$width= \frac 2 {||w||}$

我们要求最宽的街道，即要 $width$ 最大化。
要 $width$ 最大化。，也就是最小化 $||w||$ ,也相当于最小化 $\frac 1 2 {||w||}^2$
回顾一下我们都做了什么。
①确定了决策规则，判断处于哪一边。
②给出约束条件，让决策规则的值，对于边缘处的正例为+1，对于边缘处的负例为-1.
③最大化街道宽度，即最小化 $\frac 1 2 {||w||}^2$

要求带约束条件的函数的极值，我们就需要用到拉格朗日乘数。这样我们得到

L = 1 2 | | w | | 2 - \sum α i [y i (w * x i + b) - 1] (后 一 项 是 所 有 约 束 条 件 的 和)

$L=\frac 1 2 {||w||}^2-\sum{α_i[y_i(w*x_i+b)-1]} (后一项是所有约束条件的和)$

我们让 $L$ 求导等于0求得极值。

\partial L \partial w = w - \sum α i y i x i = 0 即 : w = \sum α i y i x i

$\frac {\partial L} {\partial w}=w - \sum {α_iy_ix_i} = 0 \\ 即:w=\sum {α_iy_ix_i}$

$w$ 是关于 $x_i$ 向量的线性和。

\partial L \partial b = \sum α i y i = 0 即 ： \sum α i y i = 0

$\frac {\partial L} {\partial b}=\sum {α_iy_i}=0\\ 即：\sum {α_iy_i}=0$

决策向量 $w$ 是样本的现象和，带入 $L$

L = 1 2 (\sum α i y i x i) (\sum α j y j x j) - (\sum α i y i x i) (\sum α j y j x j) - \sum α i y i b + \sum α i = \sum α i - 1 2 \sum i \sum j α i y i x i α j y j x j

$L=\frac 1 2 (\sum α_iy_ix_i)(\sum α_jy_jx_j)-(\sum α_iy_ix_i)(\sum α_jy_jx_j)-\sum α_iy_ib+\sumα_i \\ =\sumα_i-\frac 1 2\sum_i\sum_j{α_iy_ix_iα_jy_jx_j}$

这个式子告诉我们，极值只依赖于样本对之间的点积。