Cousera - Machine Learning - 课程笔记 - Week 7

最新推荐文章于 2024-08-19 21:49:13 发布

支锦铭

最新推荐文章于 2024-08-19 21:49:13 发布

阅读量213

点赞数

分类专栏： Cousera-课程笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/cary_leo/article/details/105719463

版权

Cousera-课程笔记专栏收录该内容

141 篇文章 17 订阅

订阅专栏

2018年8月版本

Week 7

大间距分类 Large Margin Classification

优化目标 Optimization Objective

支持向量机（Support Vector Machine，SVM）：在拟合复杂非线性函数问题上表现比较出众
SVM优化目标函数： $\min\limits_{\theta}C\sum\limits_{i=1}^{m}y^{(i)}cost_1(\theta^Tx^{(i)})+(1-y^{(i)})cost_0(\theta^Tx^{(i)})+\frac{1}{2}\sum\limits_{j=1}^{n}\theta_j^2$ ，两个cost函数分别对应y取1和0是的代价函数取值

大间距 Large Margin

SVM的一个性质，我们不仅希望能够大致进行分类，我们还希望能够更加精确的分类，因此上图中的1和-1实际上是一个“安全因子”
我们希望：
- 任何时候，当 $y^{(i)}=1$ ，应当有 $\theta^Tx^{(i)} \ge 1$
- 任何时候，当 $y^{(i)}=0$ ，应当有 $\theta^Tx^{(i)} \le -1$
大间距：分类边界与样本有更大（最优解应当是最大）的最短距离
假设C非常大，那么上面的代价函数的第一项就会被迫接近于0，因此后一项决定了结果（产生了线性可分内容），但在这种情况下，异常点会更容易影响分类结果
因此，SVM又被称为大间距分类器
C和正则化系数的作用相似，可以控制分类结果对数据的拟合效果，二者的关系大致为 $C=\frac{1}{\lambda}$

核函数 Kernels

针对非线性分类的情形，使用 $\theta_0+\theta_1f_1+\theta_2f_2+\ldots \ge 0$ 的线性表示，其中的f表示成由特征x组成的内容，将非线性问题尝试转换成线性问题
一种特征取法：根据给定的x，依据其与标记 $l^{(1)},l^{(2)},l^{(3)}$ 的相似度计算新的特征
- $f_1=similiarity(x,l^{(1)})=\exp(-\frac{||x-l^{(1)}||}{2\sigma^2})$
- $f_2=similiarity(x,l^{(2)})=\exp(-\frac{||x-l^{(2)}||}{2\sigma^2})$
- $f_3=similiarity(x,l^{(3)})=\exp(-\frac{||x-l^{(3)}||}{2\sigma^2}$
- 以上的similarity函数即核函数（高斯核函数），记为 $k(x,l^{(i)})$
- 将问题转化成，根据 $\theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3 \ge 0$
（忽略0分量，因为其恒等于1）有详细解释 $f_1=similiarity(x,l^{(1)})=\exp(-\frac{||x-l^{(1)}||}{2\sigma^2})=\exp(-\frac{\sum\limits_{j=1}^{n}(x_j-l_j^{(1)})^2}{2\sigma^2})$
- 如果 $x\approx l^{(1)}$ ，有 $f_1 \approx 1$
- 如果 $\gg l^{(1)}$ ，有 $f_1 \approx 0$
- σ决定了从最高点（最高点时， $f_1=1$ ）向其他方向衰减到0的速度，其值越大，衰减速度越慢
一种选择标记点的思路：让每一个样本点都作为一个标记点
有了标记点，我们可以生成对应于 $x^{(i)}$ 的新特征向量 $f^{(i)}$ ，就会有新的目标函数：
- $\min\limits_{\theta}C\sum\limits_{i=1}^{m}y^{(i)}cost_1(\theta^Tf^{(i)})+(1-y^{(i)})cost_0(\theta^Tf^{(i)})+\frac{1}{2}\sum\limits_{j=1}^{n}\theta_j^2$
- 在上述选择标记点的情形下， $n = m$
对于第二项，常见的SVM中的写法是 $\sum\limits_j \theta_j^2=\Theta^T\Theta$
大多数实现中，使用 $\Theta^TM\Theta$ 替换上面的式子，M是由核函数决定的矩阵，整个过程变成了最小化另一种度量，这使得SVM能够更加有效率地运行

偏差和方差

对于更大的C，对应更小的偏差，更大的方差（即更小的λ）
对于更小的C，对应更大的变差，更小的方差（即更大的λ）
对于更大的 $\sigma^2$ ， $f_i$ 变化更加平滑，会有更高的偏差和更小的方差
对于更小的 $\sigma^2$ ， $f_i$ 变化更加剧烈，会有更低的偏差和更大的方差

使用SVM

使用现成的软件库实现SVM
需要额外注意的内容：
- C的选择
- 核函数的选择
  - 没有核函数/线性核函数（n很大，m很小）
  - 高斯核函数（n很小，m很大）
在使用高斯核函数之前，需要进行特征缩放
需要注意，所有的核函数（不是所有的相似度函数都能作为核函数）都需要满足默塞尔定理（Mercer’s Theorem），确保SVM软件包能够使用大量的优化方法，以很快地得到参数
其他的核函数
- 多项式核函数 $k(x,l)=(x^Tl+cons)^d$ （要求x和l严格非负）
- 字符串核函数
- $\Chi^2$ 核函数
- 直方图交叉核函数

多元分类

one-vs-all方法

LR vs. SVMs

已知特征数量n和样本数量m
- 如果n更大，使用逻辑回归，或者线性核的SVM
- 如果n比较小，m适中，使用高斯核SVM
- 如果n比较小，m特别大，就应该使用逻辑回归或者线性核的SVM
逻辑回归和线性核SVM的表现十分相似

支锦铭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Cousera - Machine Learning - 课程笔记 - Week 7

2018年8月版本Week 7大间距分类 Large Margin Classification优化目标 Optimization Objective支持向量机（Support Vector Machine，SVM）：在拟合复杂非线性函数问题上表现比较出众SVM优化目标函数：min⁡θC∑i=1my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))+12∑j=...
复制链接

扫一扫

专栏目录