20170123 Coursera Stanford-MachineLearning/Week7

最新推荐文章于 2021-08-08 17:00:54 发布

LiuSpark

最新推荐文章于 2021-08-08 17:00:54 发布

阅读量743

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/SPARKKKK/article/details/54694821

版权

机器学习专栏收录该内容

30 篇文章 0 订阅

订阅专栏

Week7:Support Vector Machine(SVM) 支持向量机

SVM又称为大间距分类器(Large Margin Classifier)

SVM以及其目标函数

c o s t 1 (θ T x (i)) = - log h θ (x (i))

$cost_{1}(\theta^{T}x^{(i)})=-\log h_{\theta}(x^{(i)})$

c o s t 0 (θ T x (i)) = - log (1 - h θ (x (i)))

$cost_{0}(\theta^{T}x^{(i)})=-\log (1-h_{\theta}(x^{(i)}))$

与逻辑回归不同的是把 $\frac{1}{m}$ 这个常数项舍去，因为其对最后的结果(即代价函数取 $min$ 时 $\theta$ 的值)没有影响
而且令 $C=\frac{1}{\lambda}$

这就是SVM的数学表达式，Cost函数不一定就是 $\log$ 那种类型的

为了使 $\min$ 函数前面一项为0，须有 $\theta^{T}x^{(i)}≥1$ if $y^{(i)}=1$ 或 $\theta^{T}x^{(i)}≤-1$ if $y^{(i)}=0$
这样就有SVM函数 $\min\limits_{\theta}\frac{1}{2}\sum\limits_{j=1}^{n}{\theta_{j}^{2}}$

注意margin（一般取1，即 $\theta^{T}x≥1$ 和 $\theta^{T}x≤-1$ 中的1和-1），而且一般是有方向性的，即线的一边为y=1，线的一边为y=0

SVM的数学原理

对于 $\theta^{T}x^{(i)}$ 可以认为是范数 $||\theta||$ 和投影 $p^{(i)}$ 的乘积

对于上图中的绿色线为SVM决策边界，蓝色线 $\theta$ 向量的方向与决策边界垂直
对于上图中的左下图

∵ p (1) | | θ | | \geq 1 且 p (1) 很 小 ∴ | | θ | | 很 大

$\because p^{(1)}||\theta||≥1 且p^{(1)}很小 \\ \therefore ||\theta||很大$

p(2) $p^{(2)}$ 同理
这个时候说明这个决策边界选择不合适，我们要实现的应该是使得

p(i) $p^{(i)}$ 更大，令

||θ|| $||\theta||$ 更小
对于上图中的右下图
Margin其实就是训练样本到决策边界的距离，其实也就是

p(i) $p^{(i)}$
对于SVM，它产生Large Margin的原因在于选择了最合适的决策边界使得

p(i) $p^{(i)}$ 极大化，进而极小化

||θ|| $||\theta||$ ，这也是SVM中最小化目标函数

12∑j=1nθ2j $\frac{1}{2}\sum\limits_{j=1}^{n}{\theta_{j}^{2}}$ 的意义所在

Kernels核函数

上图中是非线性决策边界

$K(x,l^{(i)})$ 称为核函数
在下图中为高斯核函数

Gaussian Kernel:高斯核函数

$f i = exp (- | | x - l ( i ) | | 2 2 σ 2), w h e r e l (i) = x (i) N e e d t o c h o o s e σ 2$ $f_{i}=\exp{(-\frac{||x-l^{(i)}||^{2}}{2\sigma^{2}})},where\ l^{(i)}=x^{(i)}\\ Need\ to\ choose\ \sigma^{2}$

最高点函数的值必为1

下图中 $f_{1}$ 、 $f_{2}$ 、 $f_{3}$ 的定义均与上图类似，本质上是 $f_{i}=similarity(x,l^{(i)})$

对于上图中靠近 $l^{(1)}$ 、 $l^{(2)}$ 的点，根据 $f_{i}$ 和 $\theta_{i}$ 的值预测结果为y=1，对于远离 $l^{(1)}$ 、 $l^{(2)}$ 的点预测结果为y=0
所以我们可以用landmark标记点和KernelsFunction核函数来训练出非常复杂的非线性边界

$f^{(i)}$ 是一个特征向量，与 $x^{(i)}$ 有关

使用Kernel的时候将cost函数中的 $\theta^{T}x^{(i)}$ 替换为 $\theta^{T}f^{(i)}$ ,然后根据Kernel修改正则项为 $\theta^{T}M\theta$ ，M取决于Kernel，以用更高计算效率适应超大训练集。
但是需要提到的一点是，如果把逻辑回归和Kernel结合，那运行效率很低

SVM参数选择

No Kernel(“linear Kernel”)为 $\theta^{T}x$

使用Linear Kernel的时候一般是x的变量数多但是样本总数少
使用Gaussian Kernel的时候一般是x的变量数少但是样本总数多

不是所有的SimilarityFunction $similarity(x,l)$ 是有效的Kernel，必须遵循Mercer’s Theorem ，使SVM正确地收敛
一般用的比较多的Kernel是高斯和线性，但也有其他的一些例如
* PolynomialKernel $(x^{T}+constant)^{degree}$
* String Kernel
* chi-square Kernel
* histogram intersection kernel
* …