机器学习 2014斯坦福大学课程: 5 支持向量机

hyfariel

于 2019-07-08 16:00:53 发布

阅读量224

点赞数

分类专栏：机器学习文章标签：机器学习支持向量机 python

本文链接：https://blog.csdn.net/hyfariel/article/details/95066491

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

机器学习 2014斯坦福大学课程: 5 支持向量机

刚开始学习机器学习，学习的视频教程是coursera网站上吴恩达（Andrew Ng）教授的机器学习课程。
在此梳理并记录总结笔记，供学习交流，欢迎批评指正！

文章目录

机器学习 2014斯坦福大学课程: 5 支持向量机

机器学习分类回顾

监督学习（supervised learning )
1.1 回归问题（regression): 线性回归问题（linear regression）
1.2 分类问题（classification):逻辑回归；神经网络；向量机
无监督学习(unsupervised learning)
2.1 聚集问题（clustering)
2.2. 非聚集问题（non-clustering）

支持向量机（support vector machine，SVM）

除逻辑回归，神经网络之外，又一个解决分类问题的方法，是监督学习算法之一。

逻辑回归问题中代价函数为：
$J(\theta_0,\theta_1,...\theta_n)=\frac{1}{m}\sum_{i=1}^m (-y^{(i)}*log(h_\theta(x^{(i)}))+(1-y^{(i))})log(1-h_\theta(x^{(i)}))) +\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$
$h(\theta)=g(X*\theta)$
其中， $g (z)$ sigmoid函数为
$g(z)=\frac{1}{1+e^{-z}}$
将 $log(h_\theta(x^{(i)}))，log(1-h_\theta(x^{(i)}))$ 两个函数分别用分段函数代替（图中紫红色函数），并且正则化一项的 $\lambda$ 转移到第一项，去掉 $\frac{1}{m}$
支持向量机中代价函数为
$J(\theta)=C\sum_{i=1}^m (-y^{(i)}*cost_1(\theta^Tx^{(i)}))+(1-y^{(i))})cost_0(\theta^Tx^{(i)}))) +\frac{1}{2}\sum_{j=1}^n\theta_j^2$
$h_\theta=\begin{cases} 1 & \theta^Tx\ge1\\1 & \theta^Tx\le-1 \end{cases}$
C可以理解为 $1/\lambda$
如图所示，
只有当 $y=1时，z=\theta^Tx\ge1$ ,cost会趋近0
当 $y=0时，z=\theta^Tx\le-1$ ,cost会趋近0

大间距分类机（large margin classification machine）

$minJ(\theta)=minC\sum_{i=1}^m (-y^{(i)}*cost_1(\theta^Tx^{(i)}))+(1-y^{(i))})cost_0(\theta^Tx^{(i)}))) +\frac{1}{2}\sum_{j=1}^n\theta_j^2$
$=\frac{1}{2}(\theta_1^2+\theta_2^2)=\frac{1}{2}\sqrt{(\theta_1^2+\theta_2^2)}=\frac{1}{2}||\theta||^2$
当y=1或0时前一项趋近0只剩后一项，要使后一项尽可能小，就使 $\theta$ 向量长度尽可能小
数学意义：
$u=[u_1;u_2]$ , $v=[v_1;v_2]$
$u^Tv=u_1v_1+u_2v_2=p*||u||=p*\sqrt{(u_1^2+u_2^2)}$ ,p为v投影到u的长度，有正负

svm决策边界
考虑二分类问题，特征只有2个，将两类别完全分开的直线（决策边界）一定是大间距。
将 $\theta$ ， $x$ 类比于 $u, v$
$\theta^Tx=\theta_1x_1+\theta_2x_2=p||\theta||\ge 1 or \le-1$
$\theta$ 向量垂直于决策边界
左图中，样本投影到 $\theta$ 向量的p长度较小，为了满足 $\gt1$ 或者 $\le-1$ ， $||\theta||$ 必须比较大，但此时违反了minJ的要求
右图中，样本投影到 $\theta$ 向量的p长度较大，为了满足 $\gt1$ 或者 $\le-1$ ， $||\theta||$ 比较小，此时满足了minJ的要求

核函数（kernel）

针对非线形决策边界，如何构造？
$\theta^Tx=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+...+\theta_nx_n$
令 $f_0=1,f_1=x_1,f_2=x_2...$
则 $\theta^Tf=\theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3+...+\theta_nf_n$
针对非线形可以，令 $f_0=1,f_1=x_1^2,f_2=x_2^2,f_3=x_2x_3...$

1.高斯核函数（gaussian kernel）
$f_1=similarity(x^{(i)},l^{(1)})=exp(-\frac{(||x-l^{(1)}||)^2}{2\sigma^2})$
$f_2=similarity(x^{(i)},l^{(2)})=exp(-\frac{(||x-l^{(2)}||)^2}{2\sigma^2})$
$f_3=similarity(x^{(i)},l^{(3)})=exp(-\frac{(||x-l^{(3)}||)^2}{2\sigma^2})$
…
$l^{(1)},l^{(2)}...对应于x^{(1)},x^{(2)}...m个点$
当 $f_i=similarity(x^{(i)},l^{(i)})=0$
C越大， $\lambda$ 越小，对应高方差
C越小， $\lambda$ 越大，对应高偏差
$\sigma$ 越大越平缓；对应高偏差
$\sigma$ 越小越尖锐；对应高方差在这里插入图片描述 2) 线形核函数(linear kernel)，即不使用核函数
$\theta^Tx=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+...+\theta_nx_n$
3）字符串核函数（string kernel）、多项式核函数（polynomial kernel）、卡方核函数（chi-square kernel）等等

支持向量机方法总结

样本数为m，特征数为n
1.n远大于m，样本数少，使用逻辑回归或者不带核函数的支持向量机
2.n较小，m中等，使用高斯核函数的支持向量机
3.n较小，m较大，要创造更多特征，然后使用逻辑回归或者不带核函数的支持向量机
支持向量机方法，主要是选择核函数，写核函数程序，然后选择最优化算法优化

python代码

高斯核函数

def gaussian_kernel(x1,x2,sigma):
    return np.exp(-(np.sum((x1-x2)**2)/(2*(sigma**2))))

调用库

import sklearn import svm
'''linear knernel'''
svc=svm.LinearSVC(C=1，loss='hinge',max_iter=1000)
svc.fit(X,y)
svc.score(X,y)
'''gaussian kernel'''
svc=svm.SVC(C=1，gamma=10,probability=True)
svc.fit(X,y)
svc.score(X,y)

参考

[1] 来自本课程课件和作业题，以及黄海广github上的中文笔记资料等

hyfariel

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习 2014斯坦福大学课程: 5 支持向量机

机器学习 2014斯坦福大学课程: 5 支持向量机刚开始学习机器学习，学习的视频教程是coursera网站上吴恩达（Andrew Ng）教授的机器学习课程。在此梳理并记录总结笔记，供学习交流，欢迎批评指正！文章目录机器学习 2014斯坦福大学课程: 5 支持向量机机器学习分类回顾支持向量机（support vector machine，SVM）大间距分类机（large margin cl...
复制链接

扫一扫