Coursera - 机器学习技法 - 课程笔记 - Week 1

最新推荐文章于 2024-07-18 18:43:19 发布

支锦铭

最新推荐文章于 2024-07-18 18:43:19 发布

阅读量182

点赞数

分类专栏： Cousera-课程笔记文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/cary_leo/article/details/105911457

版权

Cousera-课程笔记专栏收录该内容

141 篇文章 17 订阅

订阅专栏

Linear Support Vector Machine

Large-Margin Separating Hyperplane

线性可分情形
- 存在一个“解集”
- 哪个解是最优的？
  - PLA算法中随机得到
  - 根据VC边界，每个解的效果都一样 $E_{out}(\bold w) \le E_{in}(\bold w) + \Omega(\mathcal{H})$
- 对采样误差的容忍度
  - 对过拟合更加鲁棒
  - 这个分界面离数据点更远——大margin
目标
- 能够整个分开所有样本
- 距离所有样本点的距离最大

Standard Large-Margin Problem

形式化假设（将截距单独列出）： $h(\bold x) = \operatorname{sign}(\bold w^\mathrm{T} \bold x + b)$
样本点 $\bold x$ 到分类超平面 $\bold w^{\mathrm{T}} \bold x + b = 0$ 的距离（ $\bold x^{\prime}$ 为平面上任意一点，距离即连线沿法向投影）： $\left | \frac{\bold w}{\|\bold w\|} (\bold x - \bold x^{\prime}) \right | = \frac{1}{\|\bold w\|} |\bold w^{\mathrm{T}} \bold x + b|$
基于线性可分的假设，有 $y_n (\bold w^{\mathrm{T}} \bold x_n + b) > 0$ ，那么可以脱掉绝对值为 $\frac{1}{\|\bold w\|} y_n (\bold w^{\mathrm{T}} \bold x_n + b)$
形式化间隔优化问题：

$\begin{aligned} \max_{b, \bold w} &\quad \operatorname{margin} (b, \bold w) \\ \operatorname{s.t.} &\quad y_n (\bold w^{\mathrm{T}} \bold x_n + b) > 0 \\ &\quad \operatorname{margin} (b, \bold w) = \min_{n = 1, \ldots, N} \frac{1}{\|\bold w\|} y_n (\bold w^{\mathrm{T}} \bold x_n + b) \end{aligned}$

直线族可以被放缩
- 将间隔放缩到1： $\min_{n = 1, \ldots, N} y_n (\bold w^{\mathrm{T}} \bold x_n + b) = 1$
- 优化问题被简化： $\operatorname{margin} (b, \bold w) = \frac{1}{\|\bold w\|}$
松弛约束条件：只要求 $y_n (\bold w^{\mathrm{T}} \bold x_n + b) \ge 1$
进一步简化：转为最小化优化问题，去除根号

$\begin{aligned} \min_{b, \bold w} &\quad \frac{1}{2} \bold w^{\mathrm{T}} \bold w \\ \operatorname{s.t.} &\quad y_n (\bold w^{\mathrm{T}} \bold x_n + b) \ge 1 ,\quad \text{for all }n \\ \end{aligned}$

其中的 $\frac 12$ 用于后续求导的系数处理

Support Vector Machine

支撑向量：位于最小距离上，能够描述出超平面的样本点
支撑向量机：在支撑向量的辅助之下学习最宽的分类超平面
不能使用GD——但是是一个凸的优化函数、线性约束——QP问题
QP形式：

$\begin{aligned} \operatorname{optimal} \bold u &\gets \operatorname{QP}(\bold Q, \bold p, \bold A, \bold c) \\ \min_{\bold u} &\quad \frac 12 \bold u^{\mathrm{T}} \bold Q \bold u + \bold p^{\mathrm{T}} \bold u \\ \operatorname{s.t.} &\quad \bold a_m^{\mathrm{T}} \bold u \ge \bold c_m ,\ m = 1, 2, \ldots, M \end{aligned}$

线性硬间隔SVM的对应形式

$\bold u = \left [ \begin{array}{c} b \\ \bold w \end{array} \right ] \quad \bold Q = \left [ \begin{array}{cc} 0 & \bold 0_d^{\mathrm{T}} \\ \bold 0_d & \bold I_d \end{array} \right ] \quad \bold p = \bold 0_{d + 1} \\ \bold a_n^{\mathrm{T}} = y_n \left[ \begin{array}{cc} 1 & \bold x_n^{\mathrm{T}} \end{array} \right] \quad \bold c_n = 1 \quad M = N$

线性：不对 $\bold x_n$ 进行变换
硬间隔：不存在违反边界的情形

Reasons behind Large-Margin Hyperplane

可以认为是要求 $E_{in} = 0$ （并且还要大于一定的值）的正则化过程
增加了间隔限制，能够降级VC维度，保证更好的泛化性能
需要考虑 $d_{vc}(\mathcal{A}_\rho)$ （数据依赖，需要VC理论之外的更多信息），而不是 $d_{vc}(\mathcal{H})$ （数据独立，VC理论保证），其中 $\rho$ 表示间隔宽度
通常小于 $d + 1$ ： $d_{vc}(\mathcal{A}_\rho) \le \min \left( \frac{\bold R^2}{\bold \rho^2}, d \right) + 1 \le d + 1$

支锦铭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Coursera - 机器学习技法 - 课程笔记 - Week 1

Linear Support Vector MachineLarge-Margin Separating Hyperplane线性可分情形存在一个“解集”哪个解是最优的？PLA算法中随机得到根据VC边界，每个解的效果都一样Eout(w)≤Ein(w)+Ω(H)E_{out}(\bold w) \le E_{in}(\bold w) + \Omega(\mathcal{H})Eou...
复制链接

扫一扫