十,支持向量机

最新推荐文章于 2024-08-27 10:36:28 发布

唐-import-某人

最新推荐文章于 2024-08-27 10:36:28 发布

阅读量451

点赞数

分类专栏：机器学习文章标签：支持向量机拉格朗日乘子法最优超平面核函数 SVM优化

本文链接：https://blog.csdn.net/tyh751734196/article/details/117260163

版权

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一.间隔与支持向量

最优超平面(直线)： 对训练样本局部扰动的“容忍性”最好，即最具鲁棒性。

1.最优平面公式推导

最优超平面: W^TX_i+b=0
正类: W^TX_i+b≥+1,y_i=+1
负类: W^TX_i+b≥-1,y_i=-1

最小距离推导

$γ=\frac{2}{\sqrt{{W_1^2}*{W_2^2}}}=\frac{2}{||W||}$

$W_1=(W^TX_i+b=-1)-(W^TX_i+b=0)$
$W_2=(W^TX_i+b=1)-(W^TX_i+b=0)$
$W=(W^TX_i+b=1)-(W^TX_i+b=-1)$

max：

$γ=\frac{2}{||W||}$

s . t：

$y_i(w^Tx_i+b)>1$

最优平面求解公式:

min：

$γ=\frac{1}{2}*||W||$

s . t：

$y_i(w^Tx_i+b)>1$

二.公式求解

1.求解

$f=2x_1^2+3x_2^2+7x_3^2$

的最小值.其中

$2x_1+x_2=1,2x_2+3x_3=2$

2.统一自变量

$x_1=\frac{1-x_2}{2}$

$x_3=\frac{2-2x_2}{3}$

$f=2(\frac{1-x_2}{2})^2+3x_2^2+7(\frac{2-2x_2}{3})^2$

3.求最小值

令

$\frac{αf}{αx_2}==0$

将

$x_2$

的值代入方程

5.凸函数

凸函数: 开口朝向(上或下)
数学条件:

$\frac{f(x_1)+f(x_2)}{2}>f\frac{x_1+x_2}{2},\frac{f(x_1)+f(x_2)}{2}<f\frac{x_1+x_2}{2}$

6.拉格朗日乘值法

拉格朗日乘公式推导，设

$α_1,α_2$

为拉格朗日乘子

1.公式转换

$$
f=2x_1^2+3x_22+7x_3^2+α_1(2x_1+x_2-1)+α_2(2x_2+3x_3-2)

2.公式计算
- x₁:
  
  $\frac{δf}{δx_1}=4x_1+2α_1=0 → x_1=-0.5 α_1$
- x₂：
  
  $\frac{δf}{δx_2}=6x_2+α_1+2α_2=0 → x_2=\frac{α_1+2α_2}{6}$
- x₃：
  
  $\frac{δf}{δx_3}=14x_3+3α_2=0 → x_3=-\frac{3α_2}{14}$
结果:

$α_1=-0.39,α_2=-1.63$

三.优化

min：

$γ=\frac{1}{2}||W||^2=\frac{1}{2}(W_1^2+W_2^2)$

s . t：

$y_i(w^Tx_i+b)≥1$

1.拉格朗日优化

引入α得

$$
L(w,b,α)=\frac{1}{2}||w||^2+\sum_{i=1}{m}{α_i(1-y_i(w^Tx_i+b))}

令

$w$

求偏导:

$\sum_{i=1}^{m}{α_iy_ix_i}$

,令

$b$

求偏导:

$\sum_{i=1}^{m}{α_iy_i}$

2.对偶问题求α_i(SMO算法)

max:

$w(α)=L(w,b,a)=\sum_{i=1}^{m}{α_i}-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}{α_iα_jy_iy_jx_i^Tx_j}$

s . t.:

$\sum_{j=1}^{m}{α_iy_i}==0(α_{ij}>0)$

最优超平面:

$f(x)=(\sum_{i=1}^{m}{α_iy_ix_i})^Tx+b$

**

$\sum_{i=1}^{m}{α_iy_ix_i}$

结合

$f(x)=w^Tx+b$

四.核函数

线性不可分问题(找不到最优平面)

1.升维操作

2.参数升维表达

$Φ (x)$

表示

$x$

映射在高维空间的

3.最优平面公式：

$f(x)=w^TΦ(x)+b$

min:

$γ=\frac{1}{2}||w||^2$

s.t. :

$y_i(w^TΦ(x)+b)>1$

4.1对偶公式-1：

max:

$w(α)=L(w,b,a)=\sum_{i=1}^{m}{α_i}-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}{α_iα_jy_iy_jΦ(x_i)^TΦ(x_j)}$

s . t.:

$\sum_{j=1}^{m}{α_iy_i}==0(α_{ij}>0)$

由于研究人员肝不出来:

$Φ(x_i)^TΦ(x_j)$

故使用替代:

$k(x_i,x_j)=Φ(x_i)^TΦ(x_j)$

4.2对偶函数-2:

max:

$w(α)=L(w,b,a)=\sum_{i=1}^{m}{α_i}-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}{α_iα_jy_iy_jk(x_i,x_j)}$

s . t.:

$\sum_{j=1}^{m}{α_iy_i}==0(α_{ij}>0)$

**!!!此时

$k(x_i,x_j)$

叫核函数!!!**

5.常用核函数

五.参数

分类器(离散数据)-通用

from sklearn.svm import LinearSVC

回归器(连续数据)

from sklearn.svm import LinearSVR

参数名	意义	接收	默认
penalty	惩罚中使用的规范	“ l2”: SVC标准惩罚 “ l1”: 会导致稀疏的coef_向量	“ l2”
loss	指定损失函数	hinge: 标准的SVM损失(如SVC类使用的)， squared_hinge: hinge损失的平方	’squared_hinge’
dual	选择算法来解决对偶或原始优化问题	bool,	True
tol	设置停止的条件	float, default	0.0001
C	正则化参数	float, default	1.0
multi_class	多维数据方案	“ ovr”: 训练n_class一对多的静态分类器 “ crammer_singer”: 优化所有类别的联合目标。准确性低，并且计算成本更高	’ovr’
fit_intercept	是否计算此模型的截距	bool	True
intercept_scaling	具有等于intercept_scaling的恒定值的“合成”特征附加到实例向量	float, default	1
class_weight	权重设置	dict or ‘balanced’,default	None
verbose	启用详细输出	int, default	0
random_state	控制伪随机数生成	int or RandomState instance	None
max_iter	最大迭代次数	int	1000