SVM2

最新推荐文章于 2022-04-19 19:40:11 发布

三少Algorithm

最新推荐文章于 2022-04-19 19:40:11 发布

阅读量239

点赞数

分类专栏：机器学习文章标签： svm

本文链接：https://blog.csdn.net/weixin_42717395/article/details/103394529

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

3 线性支持向量机与软间隔最大化

一个特征空间上的数据集：

$T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ，其中 $x_{i} \in \mathcal{X}=\mathbf{R}^{n},y_{i} \in \mathcal{Y}=\{+1,-1\}$ ， $\cdots, N$ ， $x_i$ 是第 $i$ 个特征向量，也称为实例， $y_i$ 为 $x_i$ 的类别标记
$x_i,y_i)$ 为样本点，当 $y = + 1$ 时，称 $x_i$ 为正例；当 $y = - 1$ 时，称 $x_i$ 为正例
假设数据集是线性不可分的，训练数据集中存在一些特异点

线性不可分：

对于某些点不满足约束条件： ${y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N}$
对于每个样本点引入松弛变量 $\xi_{i} \geqslant 0$ ，约束条件变为： $y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}$
目标函数： $\frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}$ ， $C > 0$ 为惩罚参数
原始最优化问题为凸二次规划问题：
$\color{red}\begin{array}{ll}{\min _{w, b, \xi}} & {\frac{1}{2}\|w\|^{2}+C \displaystyle \sum_{i=1}^{N} \xi_{i}} \\ {\text { s.t. }} & {y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N} \\ {} & {\xi_{i} \geqslant 0, \quad i=1,2, \cdots, N}\end{array}$
可以证明 $w$ 的解是唯一的，但** $b$ 的解可能不是唯一的，而是存在于一个区间内**

学习的对偶算法：

原始问题的拉格朗日函数为：
$\xi, \alpha, \mu) \equiv \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}-\sum_{i=1}^{N} \alpha_{i}\left(y_{i}\left(w \cdot x_{i}+b\right)-1+\xi_{i}\right)-\sum_{i=1}^{N} \mu_{i} \xi_{i} \\ \alpha_{i} \geqslant 0, \mu_{i} \geqslant 0$
对偶问题是拉格朗日函数的极大极小问题， $\xi, \alpha, \mu)$ 对 $\xi$ 求导得：
$\nabla_{w} L(w, b, \xi, \alpha, \mu)=w-\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}=0\\ \nabla_{b} L(w, b, \xi, \alpha, \mu)=-\sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ \nabla_{\xi_{i}} L(w, b, \xi, \alpha, \mu)=C-\alpha_{i}-\mu_{i}=0$
解得：
$w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}\\ \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ C-\alpha_{i}-\mu_{i}=0$
代入 $\xi, \alpha, \mu)$ 得：
$\min _{w, b, \xi} L(w, b, \xi, \alpha, \mu)=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}$
对上式求极大得对偶问题：
$\max _{\alpha}-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}\\ \begin{array}{ll}{\text { s.t. }} & {\displaystyle\sum_{i=1}^{N} \alpha_{i} y_{i}=0} \\ {} & {C-\alpha_{i}-\mu_{i}=0} \\ {} & {\alpha_{i} \geqslant 0} \\ {} & {\mu_{i} \geqslant 0, \quad i=1,2, \cdots, N}\end{array}$
进一步得：
$\color{red} \begin{array}{ll}{\min _{\alpha}} & {\frac{1}{2} \displaystyle \sum_{i=1}^{N} \displaystyle \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\displaystyle \sum_{i=1}^{N} \alpha_{i}} \\ {\text { s.t. }} & {\displaystyle \sum_{i=1}^{N} \alpha_{i} y_{i}=0} \\ {} & {0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N}\end{array}$
求解对偶问题：

设 $\alpha^{*}=\left(\alpha_{1}^{*}, \alpha_{2}^{*}, \cdots, \alpha_{N}^{*}\right)^{\mathrm{T}}$ 是对偶问题的一个解，若存在 $\alpha^{*}$ 的一个分量 $\alpha_{j}$ ， $0<\alpha_{j}^{*}<C$ ，则原始问题的解 $w^{*}, b^{*}$ 可按下式求得：
$\color{red} {w^{*}=\displaystyle \sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}\\ b^{*}=y_{j}-\displaystyle \sum_{i=1}^{N} y_{i} \alpha_{i}^{*}\left(x_{i} \cdot x_{j}\right)}$
由此得分离超平面为：
$\color{red} \sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}=0$
分类决策函数：
$\color{red} f(x)=\operatorname{sign}\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}\right)$
支持向量：

训练数据集中对应于 $\alpha_{i}^{*}>0$ 的样本点 $\left(x_{i}, y_{i}\right)$ 的实例点 $x_{i} \in \mathbf{R}^{n}$ 称为支持向量，实例点 $x_{i}$ 到分类间隔的距离为 $\frac{\xi_{i}}{\|w\|}$

$\alpha_{i}^{*}<C$ ，则 $\xi_{i}=0$ ，支持向量 $x_{i}$ 恰好在间隔边界上
$\alpha_{i}^{*}=C,0<\xi_{i}<1$ ，分类正确，支持向量 $x_{i}$ 在间隔边界和分类超平面之间
$\alpha_{i}^{*}=C,\xi_i=1$ ，支持向量 $x_{i}$ 在分类超平面上
$\alpha_{i}^{*}=C,\xi_i>1$ ，分类错误，支持向量 $x_{i}$ 在分类超平面误分一侧

合页损失函数：

线性支持向量机的原始最优化问题
$\begin{array}{ll}{\min _{w, b, \xi}} & {\frac{1}{2}\|w\|^{2}+C \displaystyle \sum_{i=1}^{N} \xi_{i}} \\ {\text { s.t. }} & {y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N} \\ {} & {\xi_{i} \geqslant 0, \quad i=1,2, \cdots, N}\end{array}$
等价于最优化问题：
$\min _{w, b} \sum_{i=1}^{N}\left[1-y_{i}\left(w \cdot x_{i}+b\right)\right]_{+}+\lambda\|w\|^{2}$
$y_{i}\left(w \cdot x_{i}+b\right)$ 是函数间隔（确信度）， $\lambda$ 是 $w$ 的 $L_2$ 范数

函数 $\cdot x+b))=[1-y(w \cdot x+b)]_{+}$ 为合页损失函数，下标“+”表示取正值的函数：
$[z]_{+}=\left\{\begin{array}{ll}{z,} & {z>0} \\ {0,} & {z \leqslant 0}\end{array}\right.$
合页损失函数的图形为：

在这里插入图片描述

合页损失函数对 $y_{i}\left(w \cdot x_{i}+b\right)$ 的要求更高，不仅要分类正确

三少Algorithm

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SVM2

3 线性支持向量机与软间隔最大化一个特征空间上的数据集：T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1,y1),(x2,y2),⋯,(xN,yN)}，...
复制链接

扫一扫

专栏目录