机器学习6-SVM

1 间隔与支持向量

在训练集样本空间中找到一个划分超平面,使得这个超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强。
w T x + b = 0 w^Tx+b=0 wTx+b=0
w为法向量,决定了超平面的方向,b为位移项8,决定了超平面与原点的距离。
样本空间中任一点x到超平面(w,b)的距离可写为:
r = ∣ w T x + b ∣ ∣ ∣ w ∣ ∣ r=\frac{|w^Tx+b|}{||w||} r=wwTx+b
在这里插入图片描述
支持向量:距离超平面最近的几个训练样本点
margin:两个异类支持向量到超平面的距离之和:
γ = 2 ∣ ∣ w ∣ ∣ \gamma = \frac{2}{||w||} γ=w2
最大化 γ \gamma γ等价于最小化:
m i n w , b 1 2 ∣ ∣ w ∣ ∣ 2 min_{w,b} \frac{1}{2}||w||^2 minw,b21w2
s . t . y i ( w T x i + b ) > = 1 s.t. y_i(w^Tx_i+b)>= 1 s.t.yi(wTxi+b)>=1
上式是一个凸二次规划问题。
一个高效的解法:用拉格朗日乘子法得到其对偶问题。对约束添加拉格朗日乘子 α i > = 0 \alpha_i>=0 αi>=0,上式重写为
L ( w , b , α ) = 1 2 ∣ ∣ w ∣ ∣ 2 + ∑ i = 1 m α i ( 1 − y i ( w T x i + b ) ) L(w,b,\alpha)= \frac{1}{2}||w||^2+\sum_{i=1}^{m}\alpha_i(1-y_i(w^Tx_i+b)) L(w,b,α)=21w2+i=1mαi(1yi(wTxi+b))
对w,b求偏导为0,可得对偶问题
m a x α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j max_\alpha \sum_{i=1}^m \alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j maxαi=1mαi21i=1mj=1mαiαjyiyjxiTxj
s . t . ∑ i = 1 m α i y i = 0 , α i > = 0 s.t.\sum_{i=1}^{m}\alpha_iy_i=0,\alpha_i>=0 s.t.i=1mαiyi=0,αi>=0
通过SMO算法,我们得到了对应的α的值α∗。
那么我们根据 w = ∑ i = 1 m α i y i x i w=\sum_{i=1}^{m}\alpha_iy_ix_i w=i=1mαiyixi,可以求出对应的w的值.
求出所有支持向量所对应的 b s ∗ b^∗_s bs,然后将其平均值作为最后的结果.对于任意支持向量( x s , y s x_s,y_s xs,ys),都有 y s f ( x s ) = 1 y_sf(x_s)=1 ysf(xs)=1.

2 线性可分SVM的算法过程

这里我们对线性可分SVM的算法过程做一个总结。

输入是线性可分的m个样本(x1,y1),(x2,y2),…,(xm,ym),其中x为n维特征向量。y为二元输出,值为1,或者-1.

输出是分离超平面的参数 w ∗ w^∗ w b ∗ b^∗ b和分类决策函数。

算法过程如下:

1)构造约束优化问题
m a x α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j max_\alpha \sum_{i=1}^m \alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j maxαi=1mαi21i=1mj=1mαiαjyiyjxiTxj
s . t . ∑ i = 1 m α i y i = 0 , α i > = 0 s.t.\sum_{i=1}^{m}\alpha_iy_i=0,\alpha_i>=0 s.t.i=1mαiyi=0,αi>=0
2)用SMO算法求出上式最大时对应的α向量的值 α ∗ α^∗ α向量.
3) 计算 w ∗ = ∑ i = 1 m α i ∗ y i x i w^*=\sum_{i=1}^{m}\alpha_i^*y_ix_i w=i=1mαiyixi
4) 找出所有的S个支持向量,即满足 α s α_s αs>0对应的样本 ( x s , y s ) (x_s,y_s) (xs,ys),通过 y s ( ∑ i = 1 m α i y i x i T x s + b ) = 1 y_s(\sum_{i=1}^{m}α_iy_ix^T_ix_s+b)=1 ys(i=1mαiyixiTxs+b)=1,计算出每个支持向量 ( x s , y s ) (x_s,y_s) (xs,ys)对应的 b s ∗ b^∗_s bs,计算出这些 b s ∗ = y s − ∑ i = 1 m α i y i x i T x s b^∗_s=y_s−\sum_{i=1} ^{m}α_iy_ix^T_ix_s bs=ysi=1mαiyixiTxs. 所有的 b s ∗ b^∗_s bs对应的平均值即为最终的 b ∗ = 1 S ∑ i = 1 S b s ∗ b^∗=\frac{1}{S}\sum_{i=1}^{S}b^∗_s b=S1i=1Sbs
这样最终的分类超平面为: w ∗ x + b ∗ = 0 w^*x+b^*=0 wx+b=0,最终的分类决策函数为: f ( x ) = s i g n ( w ∗ x + b ∗ ) f(x)=sign(w^*x+b^*) f(x)=sign(wx+b)

3 核函数

如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分。假设ϕ是一个从低维的输入空间χ(欧式空间的子集或者离散集合)到高维的希尔伯特空间的H映射。那么如果存在函数K(x,z),对于任意x,z∈χ,都有:
K ( x , z ) = ϕ ( x ) ∙ ϕ ( z ) K(x,z)=ϕ(x)∙ϕ(z) K(x,z)=ϕ(x)ϕ(z)
    那么我们就称K(x,z)为核函数。
K(x,z)的计算是在低维特征空间来计算的,它避免了在高维维度空间计算内积的恐怖计算量。
核函数的条件:一个函数要想成为正定核函数,必须满足他里面任何点的集合形成的Gram矩阵是半正定的。也就是说,对于任意的xi∈χ,i=1,2,3…m, K ( x i , x j ) K(x_i,x_j) K(xi,xj)对应的Gram矩阵K=[ K ( x i , x j ) K(x_i,x_j) K(xi,xj)] 是半正定矩阵,则K(x,z)是正定核函数。 
任何一个核函数都隐式的定义了一个“再生核希尔伯特空间”的特征空间

  • 线性核函数:
    K ( x , z ) = x ∙ z K(x,z)=x∙z K(x,z)=xz
  • 多项式核函数:
    K ( x , z ) = ( γ x ∙ z + r ) d K(x,z)=(γx∙z+r)^d K(x,z)=γxz+r)d
  • 高斯核函数:
    K ( x , z ) = e x p ( − ∣ ∣ x − z ∣ ∣ 2 2 σ 2 ) K(x,z)=exp(-\frac{||x-z||^2}{2\sigma^2}) K(x,z)=exp(2σ2xz2)
    σ > 0 \sigma>0 σ>0为高斯核的带宽
  • 拉普拉斯核函数
    K ( x , z ) = e x p ( − ∣ ∣ x − z ∣ ∣ σ ) K(x,z)=exp(-\frac{||x-z||}{\sigma}) K(x,z)=exp(σxz)
    σ > 0 \sigma>0 σ>0
  • sigmoid核函数:
    K ( x , z ) = t a n h ( β x T z + θ ) K(x,z)=tanh(\beta x^Tz+\theta) K(x,z)=tanh(βxTz+θ)

4 软间隔

现实中很难确定适合的核函数使得样本在特征空间线性可分。就算找到某个核函数使训练样本在特征空间线性可分,也很难断定结果是不是过拟合造成的。
办法:允许支持向量机在一些样本数出错。软间隔。
SVM对训练集里面的每个样本(xi,yi)引入了一个松弛变量ξi≥0,使函数间隔加上松弛变量大于等于1,也就是说:
y i ( w ∙ x i + b ) ≥ 1 − ξ i y_i(w∙x_i+b)≥1−ξ_i yi(wxi+b)1ξi
对比硬间隔最大化,可以看到我们对样本到超平面的函数距离的要求放松了,之前是一定要大于等于1,现在只需要加上一个大于等于0的松弛变量能大于等于1就可以了。当然,松弛变量不能白加,这是有成本的,每一个松弛变量ξi, 对应了一个代价ξi,这个就得到了我们的软间隔最大化的SVM学习条件如下:
m i n w , b , ξ i ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m ξ i min_{w,b,ξ_i}||w||^2+C\sum_{i=1}^{m}ξ_i minw,b,ξiw2+Ci=1mξi
s . t . y i ( w T x i + b ) ≥ 1 − ξ i ( i = 1 , 2 , . . . m ) s.t.y_i(w^Tx_i+b)≥1−ξ_i(i=1,2,...m) s.t.yi(wTxi+b)1ξi(i=1,2,...m)
ξ i ≥ 0 ( i = 1 , 2 , . . . m ) ξ_i≥0(i=1,2,...m) ξi0(i=1,2,...m)
将软间隔最大化的约束问题用拉格朗日函数转化为无约束问题如下:
在这里插入图片描述
其中 μi≥0,αi≥0,均为拉格朗日系数。
可以先求优化函数对于w,b,ξ的极小值(偏导为0), 接着再求拉格朗日乘子α和 μ的极大值。
m a x α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j max_\alpha \sum_{i=1}^m \alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j maxαi=1mαi21i=1mj=1mαiαjyiyjxiTxj
s . t . ∑ i = 1 m α i y i = 0 , C > = α i > = 0 s.t.\sum_{i=1}^{m}\alpha_iy_i=0, C>=\alpha_i>=0 s.t.i=1mαiyi=0,C>=αi>=0
根据KKT条件中的对偶互补条件 α i ∗ ( y i ( w T x i + b ) − 1 + + ξ i ∗ ) = 0 α^∗_i(y_i(w^Tx_i+b)−1++ξ^∗_i)=0 αi(yi(wTxi+b)1++ξi)=0
在这里插入图片描述

5 支持向量回归

支持向量回归假设我们能容忍f(x)与y之间最多有 ϵ \epsilon ϵ的偏差,超过这个偏差才计算损失。
m i n w , b 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m l ϵ ( f ( x i ) − y i ) min_{w,b}\frac{1}{2}||w||^2+C\sum_{i=1}^{m}l_{\epsilon}(f(x_i)-y_i) minw,b21w2+Ci=1mlϵ(f(xi)yi)
l ϵ ( f ( x i ) − y i ) = { 0 ∣ y i − w ∙ ϕ ( x i ) − b ∣ ≤ ϵ ∣ y i − w ∙ ϕ ( x i ) − b ∣ − ϵ ∣ y i − w ∙ ϕ ( x i ) − b ∣ > ϵ l_{\epsilon}(f(x_i)-y_i)= \begin{cases} 0 & {|y_i - w \bullet \phi(x_i ) -b| \leq \epsilon}\\ |y_i - w \bullet \phi(x_i ) -b| - \epsilon & {|y_i - w \bullet \phi(x_i ) -b| > \epsilon} \end{cases} lϵ(f(xi)yi)={0yiwϕ(xi)bϵyiwϕ(xi)bϵyiwϕ(xi)b>ϵ
在这里插入图片描述

目标函数如下: m i n      1 2 ∣ ∣ w ∣ ∣ 2 2      s . t      ∣ y i − w ∙ ϕ ( x i ) − b ∣ ≤ ϵ ( i = 1 , 2 , . . . m ) min\;\; \frac{1}{2}||w||_2^2 \;\; s.t \;\; |y_i - w \bullet \phi(x_i ) -b| \leq \epsilon (i =1,2,...m) min21w22s.tyiwϕ(xi)bϵ(i=1,2,...m)
因为间隔带两侧的松弛程度可有所不同,定义两个松弛变量 ξ i ∨ , ξ i ∧ \xi_i^{\lor}, \xi_i^{\land} ξi,ξi
m i n      1 2 ∣ ∣ w ∣ ∣ 2 2 + C ∑ i = 1 m ( ξ i ∨ + ξ i ∧ ) min\;\; \frac{1}{2}||w||_2^2 + C\sum\limits_{i=1}^{m}(\xi_i^{\lor}+ \xi_i^{\land}) min21w22+Ci=1m(ξi+ξi)
s . t .        − ϵ − ξ i ∨ ≤ y i − w ∙ ϕ ( x i ) − b ≤ ϵ + ξ i ∧ s.t. \;\;\; -\epsilon - \xi_i^{\lor} \leq y_i - w \bullet \phi(x_i ) -b \leq \epsilon + \xi_i^{\land} s.t.ϵξiyiwϕ(xi)bϵ+ξi
ξ i ∨ ≥ 0 ,      ξ i ∧ ≥ 0    ( i = 1 , 2 , . . . , m ) \xi_i^{\lor} \geq 0, \;\; \xi_i^{\land} \geq 0 \;(i = 1,2,..., m) ξi0,ξi0(i=1,2,...,m)
用拉格朗日函数将目标优化函数变成无约束的形式:
L ( w , b , α ∨ , α ∧ , ξ i ∨ , ξ i ∧ , μ ∨ , μ ∧ ) = 1 2 ∣ ∣ w ∣ ∣ 2 2 + C ∑ i = 1 m ( ξ i ∨ + ξ i ∧ ) + ∑ i = 1 m α ∨ ( − ϵ − ξ i ∨ − y i + w ∙ ϕ ( x i ) + b ) + ∑ i = 1 m α ∧ ( y i − w ∙ ϕ ( x i ) − b − ϵ − ξ i ∧ ) − ∑ i = 1 m μ ∨ ξ i ∨ − ∑ i = 1 m μ ∧ ξ i ∧ L(w,b,\alpha^{\lor}, \alpha^{\land}, \xi_i^{\lor}, \xi_i^{\land}, \mu^{\lor}, \mu^{\land}) = \frac{1}{2}||w||_2^2 + C\sum\limits_{i=1}^{m}(\xi_i^{\lor}+ \xi_i^{\land}) + \sum\limits_{i=1}^{m}\alpha^{\lor}(-\epsilon - \xi_i^{\lor} -y_i + w \bullet \phi(x_i) + b) + \sum\limits_{i=1}^{m}\alpha^{\land}(y_i - w \bullet \phi(x_i ) - b -\epsilon - \xi_i^{\land}) - \sum\limits_{i=1}^{m}\mu^{\lor}\xi_i^{\lor} - \sum\limits_{i=1}^{m}\mu^{\land}\xi_i^{\land} L(w,b,α,α,ξi,ξi,μ,μ)=21w22+Ci=1m(ξi+ξi)+i=1mα(ϵξiyi+wϕ(xi)+b)+i=1mα(yiwϕ(xi)bϵξi)i=1mμξii=1mμξi
目标是:
m i n ⏟ w , b , ξ i ∨ , ξ i ∧                    m a x ⏟ μ ∨ ≥ 0 , μ ∧ ≥ 0 , α i ∨ ≥ 0 , α i ∧ ≥ 0    L ( w , b , α ∨ , α ∧ , ξ i ∨ , ξ i ∧ , μ ∨ , μ ∧ ) \underbrace{min}_{w,b,\xi_i^{\lor}, \xi_i^{\land}}\; \;\;\;\;\;\;\;\;\underbrace{max}_{\mu^{\lor} \geq 0, \mu^{\land} \geq 0, \alpha_i^{\lor} \geq 0, \alpha_i^{\land} \geq 0}\;L(w,b,\alpha^{\lor}, \alpha^{\land}, \xi_i^{\lor}, \xi_i^{\land}, \mu^{\lor}, \mu^{\land}) w,b,ξi,ξi minμ0,μ0,αi0,αi0 maxL(w,b,α,α,ξi,ξi,μ,μ)
以先求优化函数对于 w , b , ξ i ∨ , ξ i ∧ w,b,\xi_i^{\lor}, \xi_i^{\land} w,b,ξi,ξi的极小值, 接着再求拉格朗日乘子 α ∨ , α ∧ , μ ∨ , μ ∧ \alpha^{\lor}, \alpha^{\land}, \mu^{\lor}, \mu^{\land} α,α,μ,μ的极大值。
∂ L ∂ w = 0    ⇒ w = ∑ i = 1 m ( α i ∧ − α i ∨ ) ϕ ( x i ) \frac{\partial L}{\partial w} = 0 \;\Rightarrow w = \sum\limits_{i=1}^{m}(\alpha_i^{\land} - \alpha_i^{\lor})\phi(x_i) wL=0w=i=1m(αiαi)ϕ(xi)
∂ L ∂ b = 0    ⇒ ∑ i = 1 m ( α i ∧ − α i ∨ ) = 0 \frac{\partial L}{\partial b} = 0 \;\Rightarrow \sum\limits_{i=1}^{m}(\alpha_i^{\land} - \alpha_i^{\lor}) = 0 bL=0i=1m(αiαi)=0
∂ L ∂ ξ i ∨ = 0    ⇒ C − α ∨ − μ ∨ = 0 \frac{\partial L}{\partial \xi_i^{\lor}} = 0 \;\Rightarrow C-\alpha^{\lor}-\mu^{\lor} = 0 ξiL=0Cαμ=0
∂ L ∂ ξ i ∧ = 0    ⇒ C − α ∧ − μ ∧ = 0 \frac{\partial L}{\partial \xi_i^{\land}} = 0 \;\Rightarrow C-\alpha^{\land}-\mu^{\land} = 0 ξiL=0Cαμ=0
最终得到的对偶形式为
m a x ⏟ α ∨ , α ∧    − ∑ i = 1 m ( ϵ − y i ) α i ∧ + ( ϵ + y i ) α i ∨ ) − 1 2 ∑ i = 1 , j = 1 m ( α i ∧ − α i ∨ ) ( α j ∧ − α j ∨ ) K i j \underbrace{ max }_{\alpha^{\lor}, \alpha^{\land}}\; -\sum\limits_{i=1}^{m}(\epsilon-y_i)\alpha_i^{\land}+ (\epsilon+y_i)\alpha_i^{\lor}) - \frac{1}{2}\sum\limits_{i=1,j=1}^{m}(\alpha_i^{\land} - \alpha_i^{\lor})(\alpha_j^{\land} - \alpha_j^{\lor})K_{ij} α,α maxi=1m(ϵyi)αi+(ϵ+yi)αi)21i=1,j=1m(αiαi)(αjαj)Kij
s . t .    ∑ i = 1 m ( α i ∧ − α i ∨ ) = 0 s.t. \; \sum\limits_{i=1}^{m}(\alpha_i^{\land} - \alpha_i^{\lor}) = 0 s.t.i=1m(αiαi)=0
0 < α i ∨ < C    ( i = 1 , 2 , . . . m ) 0 < \alpha_i^{\lor} < C \; (i =1,2,...m) 0<αi<C(i=1,2,...m)
0 < α i ∧ < C    ( i = 1 , 2 , . . . m ) 0 < \alpha_i^{\land} < C \; (i =1,2,...m) 0<αi<C(i=1,2,...m)

6 SVM优缺点

SVM算法的主要优点有:

1) 解决高维特征的分类问题和回归问题很有效,在特征维度大于样本数时依然有很好的效果。

2) 仅仅使用一部分支持向量来做超平面的决策,无需依赖全部数据。使得该算法简单且具有较好的“鲁棒”性。

3) 有大量的核函数可以使用,从而可以很灵活的来解决各种非线性的分类回归问题。

4)样本量不是海量数据的时候,分类准确率高,泛化能力强。
5)类别不平衡影响不大

SVM算法的主要缺点有:

1) 如果特征维度远远大于样本数,则SVM表现一般。

2) SVM在样本量非常大,核函数映射维度非常高时,计算量过大,不太适合使用。

3)非线性问题的核函数的选择没有通用标准,难以选择一个合适的核函数。

4)SVM对缺失数据敏感。

7 面试问题收集

如何定义这条曲线最佳?
Hinge(合页)损失最小

为什么需要间隔最大化?
(1)SVM算法认为靠近决策边界的点与决策边界的距离最大时,是最好的分类选择
(2) 因为“正中间”的划分超平面对训练样本局部扰动的“容忍性”好,分隔超平面所产生的分类结果是最鲁棒的,对预测样本泛化能力最强;
(3)线性条件下,分类超平面的解唯一

svm的对偶原理?
把目标函数和约束全部融入一个新的函数,即拉格朗日函数,原始问题就变成了一个极大极小问题,min(w,b)->max(乘子a),再通过这个函数来寻找最优点。

为什么要使用对偶?
(1) 数学层面上,求解更容易;
(2)分类性能上,自然引入核函数,可推广到非线性问题上。

为什么引入核函数?
线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得线性可分。

SVM常见的核函数?
线性、多项式、高斯(灵活,易过拟合,需要样本量大)、sigmod

什么SVM对缺失特征数据敏感?
因为SVM涉及距离度量,缺失数据若处理不好可能会导致分类效果差。SVM没有处理缺失值的策略(而决策树,XGBOOST有)。

SVM是用的是哪个库?
sklearn实现的。采用sklearn.svm.SVC设置的参数, sklearn.svm.SVC(C=1.0, kernel=‘rbf’, degree=3, gamma=‘auto’, coef0=0.0, ……)

SVM参数?
最重要的参数有2个:惩罚系数C与 γ ( = 1 / σ 2 ) \gamma(=1/σ2) γ(=1/σ2),CCC类似于正则化中1/λ的作用。C越大,说明越不能容忍出现误差,越容易过拟合。σ越大,核函数越平滑,波动越小,对噪声越不敏感,易欠拟合;σ越小,高斯分布长得又高又瘦, 会造成只会作用于支持向量样本附近,对于未知样本分类效果很差。

SVM如何实现多分类?
(1) 训练k个分类器,训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,最后分类时,将未知样本分类为具有最大分类函数值的那类;
(2) 训练c(2,k)个分类器取多数

SVM降低模型复杂度(过拟合)的方法?
给每个样本引入松弛变量

SVM做回归SVR?
一串连续数值向量A=(x1,x2,x3,…xi)对应其函数值(y1,y2,y3…yi),将其翻转后成为一列数据,类似SVM的不同样本,剩余步骤和SVM类似。只是SVR希望大部分点在间隔内,间隔外的点会带来损失,而SVM希望大部分点在间隔两边。

函数间隔和几何间隔区别?
函数间隔主要表示是否分类正确,可正可负;几何间隔表示点到超平面的距离,只能为正。

SVM与树模型间的区别?
(1)SVM可解释性更弱;树模型可解释性好
(2)SVM对缺失特征数据敏感;树模型对缺失特征数据不敏感
(3)SVM处理多分类问题麻烦
(4)SVM对异常值不敏感;树模型对异常值敏感
(5)SVM泛化能力强;树模型依赖训练样本集,对没有出现的特征没有办法
(6)SVM适用于处理小样本训练集;树模型可处理大样本训练数据集

LR与SVM的区别:
(1)异常值:LR的目标是使得所有的点分类正确。所以LR会受到数据集中所有点的影响,当数据不均衡时,LR的性能会受到影响;而SVM分类性能只会受到支持向量的影响,只要支持向量不变,类别不平衡影响不大;也就是,LR对异常值敏感。
(2)起作用点的范围:LR模型尽量让所有点都远离超平面,而SVM让只考虑support vectors(最难划分/最靠近中间分割线的那些点),也就是和分类最相关的少数点,尽量远离超超平面,即只用到那些支持向量的样本。也就是SVM的约束来体现的
(3)loss:目标函数不一样,LR对数似然损失函数,SVM凸优化问题。
(4)非线性:处理非线性分类时,SVM采用核函数更好更快,LR很少使用核函数
(5)Linear SVM依赖数据表达的距离测度,所以需要对数据先做normalization;LR不受其影响,但是如果要正则的话也要归一化
(6)概率值:SVM不能给出概率结果,LR可以产生概率,因此可做ranking
(7)SVM的目标函数就自带有约束正则(目标函数中的 1 2 ∣ ∣ w ∣ ∣ 2 \frac{1}{2}||w||^2 21w2项),这就是为什么SVM是泛化力更强的原因。而LR必须另外在损失函数上添加正则项。
(8)LR可解释性更强

SVM与感知机的区别
(1)解:SVM基于间隔最大化,求得分类超平面,解是唯一,且分类结果最鲁棒,泛化能力强;感知机基于误分类最小策略,求得分离超平面,不唯一
(2)学习策略:感知机使用梯度下降;SVM使用由约束条件构造拉格朗日函数,然后求偏导令其为0求得极值点。

转载自:https://blog.csdn.net/UniqueenCT/article/details/88914657

8 SMO算法求解对偶问题

https://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html
https://www.cnblogs.com/pinard/p/6111471.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值