机器学习（6）

最新推荐文章于 2024-05-08 19:42:05 发布

Ab_stupid

最新推荐文章于 2024-05-08 19:42:05 发布

阅读量90

点赞数

文章标签：机器学习算法人工智能笔记

本文链接：https://blog.csdn.net/Ab_stupid/article/details/133812879

版权

一支持向量机基本型

间隔（Margin）与支持向量（Support Vector）

超平面方程： $w^Tx+b=0$
在这里插入图片描述 最大间隔： 寻找参数 $w$ 和 $b$ ，使得 $γ$ 最大

凸二次规划问题，能用优化计算包求解，但可以有更高效的办法（拉格朗日乘子法）

二对偶问题与解的特性

1 对偶问题

第一步： 引入拉格朗日乘子 $\alpha_i≥0$ 得到拉格朗日函数：
$\alpha ) = \frac { 1 } { 2 } | | w | | ^ { 2 } + \sum _ { i = 1 } ^ { m } \alpha _ { i } ( 1 - y _ { i } ( w ^ { r } x _ { i } + b ) )$ 第二步： 令 $L(w,b,\alpha)$ 对 $w$ 和 $b$ 的偏导为零可得：
$\sum _ { i = 1 } ^ { m } a _ { i j} y_i x _ { i } , \quad 0 = \sum _ { i = 1 } ^ { m } \alpha _ { i }y_i$ 第三步： 回代可得：
$\operatorname { m a x _\alpha} \sum _ { i = 1 } ^ { m } a _ { i } - \frac { 1 } { 2 } \sum _ { i = 1 } ^ { m } \sum _ { j = 1 } ^ { m } \alpha_i\alpha_jy_iy_jx^T_ix_j$ $s.t.\quad \sum _ { i = 1 } ^ { m } a _ { i } y _ { i } = 0 , \quad a _ { i } \geq 0 , \quad i = 1 , 2 , \cdots , m$

2 解的特性

最终模型： $\sum _ { i = 1 } ^ { m }\alpha_iy_i x^T_i x + b$
KKT条件：
在这里插入图片描述
解的稀疏性： 训练完成后，最终模型仅与支持向量有关

3 求解方法-SMO

基本思路： 不断执行如下两个步骤直至收敛

第一步：选取一对需更新的变量 $\alpha_i$ 和 $\alpha_j$
第二步：固定 $\alpha_i$ 和 $\alpha_j$ 以外的参数，求解对偶问题更新 $\alpha_i$ 和 $\alpha_j$

仅考虑 $\alpha_i$ 和 $\alpha_j$ 时，对偶问题的约束 $0=\sum^m_{i=1}a_iy_i$ 变为： $\alpha _ { i } y _ { i } + \alpha _ { j } y _ { j } = c , \quad \alpha _ { i } \geq 0 , \quad \alpha _ { j } \geq 0$ 用 $a_i$ 表示 $a_j$ ，代入对偶问题有闭式解 $max_\alpha \sum _ { i = 1 } ^ { m } \alpha _ { i } - \frac { 1 } { 2 } \sum _ { i = 1 } ^ { m } \sum _ { j = 1 } ^ { m } \alpha_i\alpha_jy_iy_jx^T_ix_j$ 对任意支持向量 $x_s,y_s)$ 有 $y_sf(x_s)=1$ 由此可解出 $b$
为提高鲁棒性，通常使用所有支持向量求解的平均值

三特征空间映射

若不存在一个能正确划分两类样本的超平面，怎么办？
将样本从原始空间映射到一个更高维的特征空间，使样本在这个特征空间内线性可分
在这里插入图片描述
如果原始空间是有限维（属性数有限），那么一定存在一个高维特征空间使样本线性可分
在特征空间中

四核函数（Kernel Function）

基本思路： 设计核函数
$\phi ( x _ { i } ) ^ { T } \phi ( x _ { j } )$
绕过显式考虑特征映射、以及计算高维内积的困难
Mercer 定理： 若一个对称函数所对应的核矩阵半正定，则它就能作为核函数来使用。
任何一个核函数，都隐式地定义了一个RKHS(Reproducing Kernel Hilbert Space,再生核希尔伯特空间）
“核函数选择”成为决定支持向量机性能的关键！