SVM支持矢量机

最新推荐文章于 2022-12-09 21:37:07 发布

xmpp10

最新推荐文章于 2022-12-09 21:37:07 发布

阅读量442

点赞数

分类专栏：机器学习文章标签： svm

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

$通过间隔最大化\rightarrow分离超平面:w^Tx+b=0\rightarrow 决策函数：h(x)=sign(w^Tx+b)$

函数间隔与几何间隔：

函 数 间 隔 ： γ^i = y i (w \cdot x i + b) 几 何 间 隔 ： γ i = y i (w ∥ w ∥ \cdot x i + b ∥ w ∥)

$函数间隔：\hat\gamma_i=y_i(w\cdot x_i+b)\;\;\;\;\;\;\;\;\;\;\nonumber\\ 几何间隔：\gamma_i=y_i(\frac{w}{\Vert w\Vert}\cdot x_i+\frac{b}{\Vert w\Vert})$

间隔最大化：

max w, b γ s . t . y i (w ∥ w ∥ \cdot x i + b ∥ w ∥) \geq γ 相 当 于 max w, b γ ^ ∥ w ∥ s . t . y i (w \cdot x i + b) \geq γ^

$\max_{w,b}\;\;\gamma\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\nonumber\\ s.t.y_i(\frac{w}{\Vert w\Vert}\cdot x_i+\frac{b}{\Vert w\Vert})\geq\gamma \\ 相当于\\ \max_{w,b}\;\frac{\hat\gamma}{\Vert w\Vert}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\nonumber\\ s.t.y_i(w\cdot x_i+b)\geq\hat\gamma\;\;\;\;\;\;\;\;\;$

因为函数间隔的取值不影响问题求解

取 γ^= 1, 最 终 优 化 问 题 为 ：; min w, b 1 2 ∥ w ∥ 2 s . t . y i (w \cdot x i + b) \geq 1

$取\hat\gamma=1,最终优化问题为：;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ \min_{w,b}\;\frac{1}{2}\Vert w\Vert^2\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\nonumber\\ s.t.y_i(w\cdot x_i+b)\geq1\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;$
使等号成立的样本成为“支持向量”

优化问题求解：

拉 格 朗 日 乘 数 法 一 般 形 式 ： min w f (w) s . t . g i (w) \leq 0, b i (w) = 0, i = 1, 2, 3, \dots L (w, α, β) = f (w) + \sum i = 1 m α i g i (w) + \sum i = 1 m β i b i (w) K K T 条 件 ： α i \geq 0, β i \geq 0 g i (w) \leq 0, b i (w) = 0 α i g i (w) = 0, β i b i (w) = 0

$拉格朗日乘数法一般形式：\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\\ \min_wf(w)\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\qquad\qquad\qquad\qquad\qquad\qquad\qquad\\ s.t.\;\; g_i(w)\leq0,b_i(w)=0,i=1,2,3,\dots\;\;\;\;\;\;\;\;\;\qquad\qquad\qquad\qquad\qquad\qquad\qquad\\ L(w,\alpha,\beta)=f(w)+\sum_{i=1}^m\alpha_ig_i(w)+\sum_{i=1}^m\beta_ib_i(w)\;\;\;\;\;\;\;\;\;\;\;\;\;\;\qquad\qquad\qquad\qquad\qquad\qquad\qquad\\ KKT条件：\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ \alpha_i\geq0,\beta_i\geq0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ g_i(w)\leq0,b_i(w)=0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ \alpha_ig_i(w)=0,\beta_ib_i(w)=0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\$

L (w, b, α) = 1 2 ∥ w ∥ 2 + \sum i = 1 m α i (1 - y i (w T x i + b)) 令 L (w, b, α) 对 w 和 b 的 偏 导 为 零 可 得 ： w = \sum i = 1 m α i y i x i, \sum i = 1 m α i y i = 0 L (w, b, α) = 1 2 w T w + \sum i = 1 m α i - \sum i = 1 m α i y i w T x i - \sum i = 1 m α i y i b) = = 1 2 w T w - w T w + \sum i = 1 m α i = \sum i = 1 m α i - 1 2 w T w 可 得 L (w, b, α) 的 对 偶 问 题 ： max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j s . t . \sum i = 1 m α i y i = 0, α i \geq 0 需 满 足 的 K K T 条 件 为 ： α i \geq 0, y i (w T x i + b) \geq 1, α i (1 - y i (w T x i + b)) = 0 则 ： 对 任 意 样 本 总 有 α i = 0 或 y i (w T x i + b) = 1 ， 若 α i = 0, 则 对 应 的 w i = 0 样 本 对 算 法 无 影 响 ； 若 α i > 0 有 y i (w T x i + b) = 1 ， 则 样 本 为 支 持 向 量 。

$L(w,b,\alpha)=\frac{1}{2}\Vert w\Vert^2+\sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b))\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\\ 令L(w,b,\alpha)对w和b的偏导为零可得：w=\sum_{i=1}^m\alpha_iy_ix_i,\sum_{i=1}^m\alpha_iy_i=0\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\;\;\;\;\;\\ L(w,b,\alpha)=\frac{1}{2}w^Tw+\sum_{i=1}^m\alpha_i-\sum_{i=1}^m\alpha_iy_iw^Tx_i-\sum_{i=1}^m\alpha_iy_ib)==\frac{1}{2}w^Tw-w^Tw+\sum_{i=1}^m\alpha_i=\sum_{i=1}^m\alpha_i-\frac{1}{2}w^Tw\\ 可得L(w,b,\alpha)的对偶问题：\max_\alpha\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j\;s.t.\;\sum_{i=1}^m\alpha_iy_i=0,\alpha_i\geq0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\qquad\\ 需满足的KKT条件为： \alpha_i\geq0,y_i(w^Tx_i+b)\geq1,\alpha_i(1-y_i(w^Tx_i+b))=0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 则：对任意样本总有\alpha_i=0或y_i(w^Tx_i+b)=1，若\alpha_i=0,则对应的w_i=0样本对算法无影响；\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 若\alpha_i>0有y_i(w^Tx_i+b)=1，则样本为支持向量。\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;$

SVM的一个重要性质:训练完成后，大部分样本不需要保留，最终模型仅与支持向量有关。

核函数

将样本从原始空间映射到高维特征空间，使其线性可分

如果原始空间是有限的，即特征维数有限，那么一定存在一个高维特征空间是样本可分

令 ϕ (x) 表 示 映 射 后 的 特 征 向 量 \to f (x) = w t ϕ (x) + b min w, b 1 2 ∥ w ∥ 2 s . t . y i (w T ϕ (x i) + b) \geq 1 max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j ϕ (x i) T ϕ (x j) s . t . \sum i = 1 m α i y i = 0, α i \geq 0 “ 核 函 数 ” ： K (x i, x j) = < ϕ (x i), ϕ (x j) > = ϕ (x i) T ϕ (x j) \to max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j K (x i, x j) f (x) = w t ϕ (x) + b = \sum i = 1 m α i y i ϕ (x i) T ϕ (x) + b = \sum j = 1 m α i y i K (x i, x j) + b 核 函 数 定 义 ： 另 X 表 示 输 入 空 间 ， k (\cdot, \cdot) 是 定 义 在 X \times X 上 的 对 称 函 数 ， 则 当 k 是 核 函 数 当 且 仅 当 对 于 任 意 数 据 D = {x 1, x 2, \dots, x m}, 核 矩 阵 K (K i j = k (x i, x j)) 总 是 半 正 定 的 。

$令\phi(x)表示映射后的特征向量\rightarrow\;f(x)=w^t\phi(x)+b\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ \min_{w,b}\;\frac{1}{2}\Vert w\Vert^2\;s.t.\;y_i(w^T\phi(x_i)+b)\geq1\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ \max_\alpha\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)\;s.t.\;\sum_{i=1}^m\alpha_iy_i=0,\alpha_i\geq0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ “核函数”：K(x_i,x_j)=<\phi(x_i),\phi(x_j)>=\phi(x_i)^T\phi(x_j)\rightarrow\max_\alpha\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jK(x_i,x_j)\\ f(x)=w^t\phi(x)+b=\sum_{i=1}^m\alpha_iy_i\phi(x_i)^T\phi(x)+b=\sum_{j=1}^m\alpha_iy_iK(x_i,x_j)+b\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 核函数定义：另\mathcal{X}表示输入空间，k(\cdot,\cdot)是定义在\mathcal{X}\times\mathcal{X}上的对称函数，则当k是核函数当且仅当对于任意数据\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\D=\{x_1,x_2,\cdots,x_m\},核矩阵\mathbf{K}(\mathbf{K}_{ij}=k(x_i,x_j))总是半正定的。\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;$

任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间RKHS”的特征空间

常 用 核 函 数 ： 线 性 核 ： k (x i, x j) = x T i x j; 等 同 于 未 使 用 核 函 数 多 项 式 核 ： k (x i, x j) = (x T i x j) d; d \geq 1 为 多 项 式 的 次 数 高 斯 核 ： k (x i, x j) = e x p (- ∥ x i - x j ∥ 2 2 σ 2) σ > 0 为 高 斯 核 的 带 宽 拉 普 拉 斯 核 ： k (x i, x j) = e x p (- ∥ x i - x j ∥ 2 σ) σ > 0 S i g m o i d 核 ： k (x i, x j) = t a n h (β x T i x j + θ) t a n h 为 双 曲 正 切 函 数 ， β > 0, θ < 0

$常用核函数：\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\nonumber\\ 线性核：k(x_i,x_j)=x_i^Tx_j;\;\;\;等同于未使用核函数\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 多项式核：k(x_i,x_j)=(x_i^Tx_j)^d;\;\;\;d\geq1为多项式的次数\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 高斯核：k(x_i,x_j)=exp(-\frac{\Vert x_i-x_j\Vert^2}{2\sigma^2})\;\;\;\sigma>0为高斯核的带宽\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 拉普拉斯核：k(x_i,x_j)=exp(-\frac{\Vert x_i-x_j\Vert}{2\sigma})\;\;\;\sigma>0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ Sigmoid核：k(x_i,x_j)=tanh(\beta x_i^Tx_j+\theta)\;\;\;tanh为双曲正切函数，\beta>0,\theta<0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;$

核函数的选择应用：

当特征维数小，样本数适中大时，选用RBF高斯核；
当特征维数远大于样本数时，选用线性核；
当特征维数和样本数都很大时，选用线性核；
当特征维数远行小于样本数时，选用RBF高斯核，或者增加特征使用线性核或LR；

软间隔与正则化

“软间隔”：允许某些样本不满足约束： $y_i(w\cdot x_i+b)\geq1$

在最大化间隔时，不满足约束的样本应尽可能少，优化目标为：

min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 m l 0 / 1 (y i (w \cdot x i + b) - 1) ， 其 中 “ 0 / 1 损 失 函 数 ” l 0 / 1 (z) = 1 当 z < 0 时 否 则 为 0

$\min_{w,b}\;\;\frac{1}{2}\Vert w\Vert^2+C\sum_{i=1}^ml_{0/1}(y_i(w\cdot x_i+b)-1)，其中“0/1损失函数”l_{0/1}(z)=1当z<0时否则为0\nonumber\\$

当C无穷大时，硬间隔所有样本均要满足约束；当C为有限值时，软间隔允许某些样本不满足约束

由 于 “ 0 / 1 损 失 函 数 ” 非 凸 ， 非 连 续 ， 导 致 优 化 目 标 不 易 求 解 ， 有 “ 替 代 损 失 ” （ 凸 的 连 续 函 数 且 是 l 0 / 1 的 上 界 ） ： h i n g e 损 失 ： l h i n g e (z) = m a x (0, 1 - z) 指 数 损 失 ： l e x p (z) = e x p (- z) 对 率 损 失 ： l l o g (z) = l o g (1 + e x p - z) 采 用 h i n g e 损 失 ， 优 化 目 标 为 ： min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 m m a x (0, 1 - y i (w \cdot x i + b)) ， 引 入 松 弛 变 量 ξ i \geq 0 ： min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 m ξ i s . t . y i (w \cdot x i + b) \geq 1 - ξ i, ξ i \geq 0 拉 格 朗 日 函 数 ： L (w, b, α, β) = 1 2 ∥ w ∥ 2 + C \sum i = 1 m ξ i + \sum i = 1 m α i (1 - ξ i - y i (w \cdot x i + b)) - \sum i = 1 m β i ξ i 令 对 w, b, ξ i 的 偏 导 为 0 得 ： w = \sum i = 1 m α i y i x i; \sum i = 1 m α i y i = 0; C = α i + β i 对 偶 问 题 ： max α \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j s . t . \sum i = 1 m α i y i = 0, 0 \leq α i \leq C 需 满 足 的 K K T 条 件 为 ： α i \geq 0, β i \geq 0; y i (w \cdot x i + b) \geq 1 - ξ i, ξ i \geq 0; α i (1 - ξ i - y i (w \cdot x i + b)) = 0, β i ξ i = 0 分 析 ： 对 于 任 意 样 本 （ x i, y i ） ， 总 有 α i = 0 或 y i f (x i) = 1 - ξ i . 若 α i = 0 ， 则 样 本 不 会 对 f (x) 有 影 响; 若 α i > 0, 则 y i f (x i) = 1 - ξ i, 即 该 样 本 为 支 持 向 量 . 若 α i < C ， 则 β i > 0, 进 而 ξ i = 0, 即 该 样 本 恰 在 最 大 间 隔 上; 若 α i = C 则 β i = 0, 此 时 若 ξ i \leq 1, 即 该 样 本 在 最 大 间 隔 内 部 ， 若 ξ i > 1, 即 该 样 本 在 最 大 间 隔 外 部 。

$由于“0/1损失函数”非凸，非连续，导致优化目标不易求解，有“替代损失”（凸的连续函数且是l_{0/1}的上界）：\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\nonumber\\ hinge损失：l_{hinge}(z)=max(0,1-z)\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 指数损失：l_{exp}(z)=exp(-z)\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 对率损失：l_{log}(z)=log(1+exp{-z})\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 采用hinge损失，优化目标为：\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ \min_{w,b}\;\;\frac{1}{2}\Vert w\Vert^2+C\sum_{i=1}^mmax(0,1-y_i(w\cdot x_i+b))，引入松弛变量\xi_i\geq0：\\ \min_{w,b}\;\;\frac{1}{2}\Vert w\Vert^2+C\sum_{i=1}^m\xi_i\;\;s.t.\;y_i(w\cdot x_i+b)\geq1-\xi_i,\xi_i\geq0\\ 拉格朗日函数：L(w,b,\alpha,\beta)=\frac{1}{2}\Vert w\Vert^2+C\sum_{i=1}^m\xi_i+\sum_{i=1}^m\alpha_i(1-\xi_i-y_i(w\cdot x_i+b))-\sum_{i=1}^m\beta_i\xi_i令对w,b,\xi_i的\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\偏导为0得： w=\sum_{i=1}^m\alpha_iy_ix_i;\sum_{i=1}^m\alpha_iy_i=0;C=\alpha_i+\beta_i\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 对偶问题：\max_\alpha\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j\;s.t.\;\sum_{i=1}^m\alpha_iy_i=0,0\leq\alpha_i\leq C\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 需满足的KKT条件为：\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ \alpha_i\geq0,\beta_i\geq0;y_i(w\cdot x_i+b)\geq1-\xi_i,\xi_i\geq0;\alpha_i(1-\xi_i-y_i(w\cdot x_i+b))=0,\beta_i\xi_i=0\\ 分析：对于任意样本（x_i,y_i），总有\alpha_i=0或y_if(x_i)=1-\xi_i.若\alpha_i=0，则样本不会对f(x)有影响;若\alpha_i>0,则\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ y_if(x_i)=1-\xi_i,即该样本为支持向量.若\alpha_i<C，则\beta_i>0,进而\xi_i=0,即该样本恰在最大间隔上;若\alpha_i=C\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\\ 则\beta_i=0,此时若\xi_i\leq1,即该样本在最大间隔内部，若\xi_i>1,即该样本在最大间隔外部。\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;$
软间隔支持向量机的最终模型仅与支持向量有关，即采用hinge损失仍保持了稀疏性

如果使用log对率损失函数，几乎就得到了逻辑（对率）回归模型。实际上LR和SVM的优化目标想接近，性能也相当。LR的优势在于其输出具有概率意义，即在给出预测标记的同时也给出了概率。

hinge损失函数使得SVM的解具有稀疏性，而对率损失是光滑的递减函数，不能导出类似支持向量的概念，因此对率回归的解依赖于更多的训练样本，预测开销更大。

不同损失函数的SVM优化目标：

min f Ω (f) + C \sum i = 1 m l (f (x i), y i), 其 中 Ω (f) 称 为 “ 结 构 风 险 ” ， 用 于 描 述 模 型 f 的 某 些 性 质; 第 二 项 C \sum i = 1 m l (f (x i), y i) 称 为 “ 经 验 风 险 ” ， 用 于 描 述 模 型 与 训 练 数 据 的 契 合 度 。 从 经 验 风 险 最 小 化 的 角 度 来 看 ， Ω (f) 称 为 正 则 化 项 ， C 为 正 则 化 常 数 。 L p 范 数 是 常 用 的 正 则 化 项 ， 其 中 L 2 范 数 ∥ w ∥ 2 倾 向 于 w 的 分 量 取 值 尽 可 能 均 衡 ， 即 非 零 分 量 个 数 尽 量 稠 密 ， 而 L 0 ∥ w ∥ 0 和 L 1 范 数 ∥ w ∥ 1 则 倾 向 于 w 的 分 量 尽 可 能 的 稀 疏 ， 即 非 零 分 量 个 数 尽 量 少 。

$\min_f\Omega(f)+C\sum_{i=1}^ml(f(x_i),y_i),其中\Omega(f)称为“结构风险”，用于描述模型f的某些性质;第二项C\sum_{i=1}^ml(f(x_i),y_i)称为\qquad\qquad\qquad\nonumber\\ “经验风险”，用于描述模型与训练数据的契合度。从经验风险最小化的角度来看，\Omega(f)称为正则化项，C为正则化常数。\qquad\qquad\qquad\qquad\qquad\qquad\qquad\\ L_p范数是常用的正则化项，其中L_2范数\Vert w\Vert_2倾向于w的分量取值尽可能均衡，即非零分量个数尽量稠密，而L_0\Vert w\Vert_0和\qquad\qquad\qquad\qquad\qquad\qquad\\L_1范数\Vert w\Vert_1则倾向于w的分量尽可能的稀疏，即非零分量个数尽量少。\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$

SMO(Sequence Minimal Optimization)序列最小化：

固定一对需要更新的变量，固定其他变量，优化它们，重复上述步骤直至收敛。

min α 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j K (x i, x j) - \sum i = 1 m α i s . t . \sum i = 1 m α i y i = 0, 0 \leq α i \leq C 假 定 选 择 的 两 个 变 量 是 α 1, α 2, 其 他 变 量 α i (i = 3, 4, \dots, N) 是 固 定 的 ， 则 S M O 优 化 问 题 为 ： min α 1, α 2 W (α 1, α 2) = 1 2 K 11 α 21 + 1 2 K 22 α 22 + y 1 y 2 K 12 α 1 α 2 - (α 1 + α 2) + y 1 α 1 \sum i = 3 N y i α i K i 1 + y 2 α 2 \sum i = 3 N y i α i K i 2 s . t . α 1 y 1 + α 2 y 2 = - \sum i = 3 N y i α i = ς; 0 \leq α i \leq C, i = 1, 2 其 中 K i j = K (x i, x j), ς 是 常 数

$\min_\alpha\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^m\alpha_i\;\;\;\;s.t.\sum_{i=1}^m\alpha_iy_i=0,0\leq\alpha_i\leq C\nonumber\\ 假定选择的两个变量是\alpha_1,\alpha_2,其他变量\alpha_i(i=3,4,\cdots,N)是固定的，则SMO优化问题为：\qquad\qquad\qquad\qquad\qquad\qquad\qquad\\ \min_{\alpha_1,\alpha_2}W(\alpha_1,\alpha_2)=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1\sum_{i=3}^Ny_i\alpha_iK_{i1}+y_2\alpha_2\sum_{i=3}^Ny_i\alpha_iK_{i2}\\ s.t.\;\; \alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^Ny_i\alpha_i=\varsigma\;;\;0\leq\alpha_i\leq C,i=1,2其中K_{ij}=K(x_i,x_j),\varsigma是常数\qquad\qquad\qquad\qquad\qquad$
约束的二维空间图形表示：

这里写图片描述

假 定 初 始 可 行 解 为 α o l d 1, α o l d 2, 最 优 解 为 α n e w 1, α n e w 2, 并 且 假 设 再 沿 着 约 束 方 向 未 经 剪 辑 时 α 2 的 最 优 解 为 α n e w, u n c 2 L \leq α n e w 2 \leq H, 其 中 L 与 H 是 α n e w 2 所 在 的 对 角 线 段 端 点 的 界 : 若 y 1 \neq y 2 : L = m a x (0, α o l d 2 - α o l d 1), H = m i n (C, C + α o l d 2 - α o l d 1); 若 y 1 = y 2 : L = m a x (0, α o l d 2 + α o l d 1 - C), H = m i n (C, α o l d 2 + α o l d 1); 记 g (x) = \sum i = 1 N α i y i K (x i, x) + b, E i = g (x i) - y i = (\sum j = 1 N α j y j K (x j, x i) + b) - y i, i = 1, 2 α n e w, u n c 2 = α o l d 2 + y 2 ( E 1 - E 2 ) η 其 中 η = K 11 + K 22 - 2 K 12

$假定初始可行解为\alpha_1^{old},\alpha_2^{old},最优解为\alpha_1^{new},\alpha_2^{new},并且假设再沿着约束方向未经剪辑时\alpha_2的最优解为\alpha_2^{new,unc}\qquad\qquad\qquad\qquad\qquad\qquad\nonumber\\ L\leq\alpha_2^{new}\leq H,其中L与H是\alpha_2^{new}所在的对角线段端点的界:\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\\ 若y_1\neq y_2:L=max(0,\alpha_2^{old}-\alpha_1^{old}),H=min(C,C+\alpha_2^{old}-\alpha_1^{old});\qquad\qquad\qquad\\ 若y_1=y_2:L=max(0,\alpha_2^{old}+\alpha_1^{old}-C),H=min(C,\alpha_2^{old}+\alpha_1^{old});\qquad\qquad\qquad\\ 记g(x)=\sum_{i=1}^N\alpha_iy_iK(x_i,x)+b,E_i=g(x_i)-y_i=(\sum_{j=1}^N\alpha_jy_jK(x_j,x_i)+b)-y_i,i=1,2\qquad\qquad\qquad\\ \alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}其中\eta=K_{11}+K_{22}-2K_{12}\qquad\qquad\qquad\qquad\qquad\qquad$

这里写图片描述

变量的选择方法

第一个变量的选择（外层循环）：在训练样本中选择违背KKT条件最严重的样本点，并将其对应的变量作为第1个变量。检验过程中，首先遍历所有支持向量点，检验它们是否满足KKT条件。如果这些样本点均满足KKT条件，遍历整个训练集，检验它们是否满足KKT条件。

第二个变量的选择（内层循环）：选择足够大变化的变量，即使|E1-E2|最大。（特殊情况下，上述方法选择的变量不能使目标函数有足够的下降，那么采用启发式规则选择：遍历支持向量点，依次将其对应的变量选为第二个变量，直到目标函数有足够的下降。若找不到，那么遍历整个训练集；若仍找不到，则退到外层循坏重新找第一个变量。）

计算阈值b和插值E

当 0 < α n e w 1 < C 时, b n e w 1 = y 1 - \sum i = 3 N α i y i K i 1 - α n e w 1 y 1 K 11 - α n e w 2 y 2 K 21 E 1 = \sum i = 3 N α i y i K i 1 + α n e w 1 y 1 K 11 + α n e w 2 y 2 K 21 + b o l d - y 1 则 ： b n e w 1 = - E 1 - y 1 K 11 (α n e w 1 - α o l d 1) - y 2 K 21 (α n e w 2 - α o l d 2) + b o l d 同 样 有 ： b n e w 2 = - E 2 - y 1 K 12 (α n e w 1 - α o l d 1) - y 2 K 22 (α n e w 2 - α o l d 2) + b o l d 如 果 0 < α n e w 1, α n e w 2 < C, 那 么 b n e w 1 = b n e w 2 . 如 果 α n e w 1, α n e w 2 是 0 或 C ， 那 么 b n e w 1 和 b n e w 2 以 及 它 们 中 间 的 数 都 是 符 合 K K T 条 件 的 ， 这 时 选 择 它 们 的 中 点 作 为 b n e w . 更 新 E i 值 ： E n e w i = \sum S y j α j K (x i, x j) + b n e w - y i

$当0<\alpha_1^{new}<C时,b_1^{new}=y_1-\sum_{i=3}^N\alpha_iy_iK_{i1}-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{21}\\ E_1=\sum_{i=3}^N\alpha_iy_iK_{i1}+\alpha_1^{new}y_1K_{11}+\alpha_2^{new}y_2K_{21}+b^{old}-y_1\qquad\qquad\;\;\;\;\;\\ 则：b_1^{new}=-E_1-y_1K_{11}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{21}(\alpha_2^{new}-\alpha_2^{old})+b^{old}\;\;\;\;\;\\ 同样有：b_2^{new}=-E_2-y_1K_{12}(\alpha_1^{new}-\alpha_1^{old})-y_2K_{22}(\alpha_2^{new}-\alpha_2^{old})+b^{old}\;\;\\ 如果0<\alpha_1^{new},\alpha_2^{new}<C,那么b_1^{new}=b_2^{new}.如果\alpha_1^{new},\alpha_2^{new}是0或C，那么b_1^{new}和\;\;\;\;\;\;\\b_2^{new} 以及它们中间的数都是符合KKT条件的，这时选择它们的中点作为b^{new}.\qquad\qquad\qquad\qquad\;\;\;\;\\ 更新E_i值：E_i^{new}=\sum_Sy_j\alpha_jK(x_i,x_j)+b^{new}-y_i\qquad\qquad\qquad\qquad\qquad$

#SMO主要代码
def selectJrand(i,m):
    j=i #we want to select any J not equal to i
    while (j==i):
        j = int(random.uniform(0,m))
    return j

def clipAlpha(aj,H,L):
    if aj > H:
        aj = H
    if L > aj:
        aj = L
    return aj
#计算核函数值
def kernelTrans(X, A, kTup): #kTup参数，kTup[0]是使用何种核函数，之后是核函数参数
    m,n = shape(X)
    K = mat(zeros((m,1)))
    if kTup[0]=='lin': K = X * A.T   #linear kernel
    elif kTup[0]=='rbf':
        for j in range(m):
            deltaRow = X[j,:] - A
            K[j] = deltaRow*deltaRow.T
        K = exp(K/(-1*kTup[1]**2))
    else: raise NameError('Houston We Have a Problem -- \
    That Kernel is not recognized')
    return K

class optStruct:
    def __init__(self, dataMatIn, classLabels, C, toler, kTup): 
        self.X = dataMatIn
        self.labelMat = classLabels
        self.C = C
        self.tol = toler #容错率
        self.m = shape(dataMatIn)[0]
        self.alphas = mat(zeros((self.m, 1)))
        self.b = 0
        self.eCache = mat(zeros((self.m, 2)))  # 差值矩阵，第一列是有效的标志位
        self.K = mat(zeros((self.m, self.m)))  #核函数
        for i in range(self.m):
            self.K[:, i] = kernelTrans(self.X, self.X[i, :], kTup)

#计算更新后的Ek
def calcEk(oS, k):
    fXk = float(multiply(oS.alphas, oS.labelMat).T * oS.K[:, k] + oS.b)
    Ek = fXk - float(oS.labelMat[k])
    return Ek

#内循环，选择第二个变量，使得Ei-Ej最大
def selectJ(i, oS, Ei): 
    maxK = -1
    maxDeltaE = 0
    Ej = 0
    oS.eCache[i] = [1, Ei]  
    validEcacheList = nonzero(oS.eCache[:, 0].A)[0]
    if (len(validEcacheList)) > 1:
        for k in validEcacheList:  
            if k == i: continue  
            Ek = calcEk(oS, k)
            deltaE = abs(Ei - Ek)
            if (deltaE > maxDeltaE):
                maxK = k
                maxDeltaE = deltaE
                Ej = Ek
        return maxK, Ej
    else:  
        j = selectJrand(i, oS.m)
        Ej = calcEk(oS, j)
    return j, Ej

#更新Ek
def updateEk(oS, k): 
    Ek = calcEk(oS, k)
    oS.eCache[k] = [1, Ek]

#更新alpha,E,b
def innerL(i, oS):
    Ei = calcEk(oS, i)
    if ((oS.labelMat[i]*Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or ((oS.labelMat[i]*Ei > oS.tol) and (oS.alphas[i] > 0)):
        j,Ej = selectJ(i, oS, Ei) 
        alphaIold = oS.alphas[i].copy(); alphaJold = oS.alphas[j].copy()
        if (oS.labelMat[i] != oS.labelMat[j]):
            L = max(0, oS.alphas[j] - oS.alphas[i])
            H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i])
        else:
            L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C)
            H = min(oS.C, oS.alphas[j] + oS.alphas[i])
        if L==H: print("L==H"); return 0
        eta = oS.K[i,i] + oS.K[j,j] - 2.0 * oS.K[i,j]
        if eta >= 0: print("eta>=0"); return 0
        #更新第二个变量
        oS.alphas[j] += oS.labelMat[j]*(Ei - Ej)/eta
        oS.alphas[j] = clipAlpha(oS.alphas[j],H,L)
        updateEk(oS, j) 
        if (abs(oS.alphas[j] - alphaJold) < 0.00001): print("j not moving enough"); return 0
        oS.alphas[i] += oS.labelMat[j]*oS.labelMat[i]*(alphaJold - oS.alphas[j])#更新第一个变量
        b1 = oS.b - Ei- oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,i] - oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[i,j]
        b2 = oS.b - Ej- oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,j]- oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[j,j]
        if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]): oS.b = b1
        elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]): oS.b = b2
        else: oS.b = (b1 + b2)/2.0
        updateEk(oS, i)
        return 1
    else: return 0
#SMO主函数
def smoP(dataMatIn, classLabels, C, toler, maxIter,kTup=('lin', 0)):  
    oS = optStruct(mat(dataMatIn),mat(classLabels).transpose(),C,toler)
    iter = 0
    entireSet = True; alphaPairsChanged = 0
    while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)):
        alphaPairsChanged = 0
        #选择第一个alpha
        '''理论应该先遍历边界值，不行再遍历整个数据集，但alph初始为0，所以可以可以直接遍历整个数据集'''
        if entireSet:   #遍历所有值
            for i in range(oS.m):
                alphaPairsChanged += innerL(i,oS)
                print("fullSet, iter: %d i:%d, pairs changed %d" % (iter,i,alphaPairsChanged))
            iter += 1
        else:#遍历边界值
            nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0]
            for i in nonBoundIs:
                alphaPairsChanged += innerL(i,oS)
                print("non-bound, iter: %d i:%d, pairs changed %d" % (iter,i,alphaPairsChanged))
            iter += 1
        if entireSet: entireSet = False
        elif (alphaPairsChanged == 0): entireSet = True
        print("iteration number: %d" % iter)
    return oS.b,oS.alphas

#计算W
def calcWs(alphas,dataArr,classLabels):
    X = mat(dataArr); labelMat = mat(classLabels).transpose()
    m,n = shape(X)
    w = zeros((n,1))
    for i in range(m):
        w += multiply(alphas[i]*labelMat[i],X[i,:].T)
    return w

支持向量回归SVR

min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 m l ϵ (f (x i) - y i), 其 中 l ϵ 是 ϵ - 不 敏 感 损 失, l ϵ (z) = 0, i f | z | \leq ϵ; | z | - ϵ, o t h e r w i s e 引 入 松 弛 变 量 ξ i 和 ξ^i \to min w, b 1 2 ∥ w ∥ 2 + C \sum i = 1 m (ξ i + ξ^i) s . t . f (x i) - y i \leq ϵ + ξ i; y i - f (x i) \leq ϵ + ξ^i; ξ i \geq 0; ξ^i \geq 0 通 过 引 入 拉 格 朗 日 乘 子 α i \geq 0, α^i \geq 0, β i \geq 0, β^i \geq 0 得 到 拉 格 朗 日 函 数 ： L (w, b, ξ, ξ^, α, α^, β, β^) = 1 2 ∥ w ∥ 2 + C \sum i = 1 m (ξ i + ξ^i) + \sum i = 1 m α i (f (x i) - y i - ϵ - ξ i) - \sum i = 1 m β i ξ i + \sum i = 1 m α^i (y i - f (x i) - ϵ - ξ^i) - \sum i = 1 m β^i ξ^i 令 上 式 对 w, b, ξ i, ξ^i 的 偏 导 为 零 可 得 ： w = \sum i = 1 m (α^i - α i) x i; 0 = \sum i = 1 m (α^i - α i); C = α i + β i; C = α^i + β^i S V R 的 对 偶 问 题 ： max α, α^\sum i = 1 m y i (α^i - α i) - ϵ (α^i + α i) - 1 2 \sum i = 1 m \sum j = 1 m (α^i - α i) (α^j - α j) x T i x j s . t . \sum i = 1 m (α^i - α i) = 0, 0 \leq α i, α^i \leq C 需 满 足 的 K K T 条 件 是 ： α i (f (x i) - y i - ϵ - ξ i) = 0, α^i (y i - f (x i) - ϵ - ξ^i) = 0, (C - α i) ξ i = 0 (C - α^i) ξ^i = 0 α i α^i = 0, ξ i ξ^i = 0 当 且 仅 当 f (x i) - y i - ϵ - ξ i = 0 时 ， α i 才 能 取 非 零 值 ， 当 且 仅 当 y i - f (x i) - ϵ - ξ^i = 0 时 ， α^i 才 能 取 非 零 值 。 此 外 上 述 情 况 不 能 同 时 成 立 ， α i 和 α^i 至 少 一 个 零 。 (α i - α^i) \neq 0 的 样 本 为 S V R 的 支 持 向 量 ， 其 解 仍 具 有 稀 疏 性 。 此 外 ， 对 于 每 个 样 本 均 有 (C - α i)) ξ i = 0 且 α i (f (x i) - y i - ϵ - ξ i) = 0 。 若 0 < α i < C ， 则 ξ i = 0 进 而 有 b = y i + ϵ - \sum i = 1 m (α^i - α i) x T i x 模 型 ： f (x) = \sum i = 1 m (α^i - α i) x T i x + b

$\min_{w,b}\frac{1}{2}\Vert w\Vert^2+C\sum_{i=1}^ml_\epsilon(f(x_i)-y_i),其中l_\epsilon是\epsilon-不敏感损失,l_\epsilon(z)=0,if\vert z\vert\leq\epsilon;\vert z\vert-\epsilon,otherwise\\ 引入松弛变量\xi_i和\hat{\xi}_i\rightarrow\min_{w,b}\frac{1}{2}\Vert w\Vert^2+C\sum_{i=1}^m(\xi_i+\hat{\xi}_i)\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\\ s.t.f(x_i)-y_i\leq\epsilon+\xi_i;y_i-f(x_i)\leq\epsilon+\hat{\xi}_i;\xi_i\geq0;\hat{\xi}_i\geq0\\ 通过引入拉格朗日乘子\alpha_i\geq0,\hat{\alpha}_i\geq0,\beta_i\geq0,\hat{\beta}_i\geq0得到拉格朗日函数：\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\;\;\;\;\\ L(w,b,\xi,\hat{\xi},\alpha,\hat{\alpha},\beta,\hat{\beta})=\frac{1}{2}\Vert w\Vert^2+C\sum_{i=1}^m(\xi_i+\hat{\xi}_i)+\sum_{i=1}^m\alpha_i(f(x_i)-y_i-\epsilon-\xi_i)-\sum_{i=1}^m\beta_i\xi_i\\ +\sum_{i=1}^m\hat{\alpha}_i(y_i-f(x_i)-\epsilon-\hat{\xi}_i)-\sum_{i=1}^m\hat{\beta}_i\hat{\xi}_i\\ 令上式对w,b,\xi_i,\hat{\xi}_i的偏导为零可得：w=\sum_{i=1}^m(\hat{\alpha}_i-\alpha_i)x_i;0=\sum_{i=1}^m(\hat{\alpha}_i-\alpha_i);C=\alpha_i+\beta_i;C=\hat{\alpha}_i+\hat{\beta}_i\;\;\;\;\;\qquad\\ SVR的对偶问题：\max_{\alpha,\hat{\alpha}}\;\sum_{i=1}^my_i(\hat{\alpha}_i-\alpha_i)-\epsilon(\hat{\alpha}_i+\alpha_i)-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m(\hat{\alpha}_i-\alpha_i)(\hat{\alpha}_j-\alpha_j)x_i^Tx_j\qquad\qquad\;\;\;\;\;\;\;\\ s.t.\sum_{i=1}^m(\hat{\alpha}_i-\alpha_i)=0,0\leq\alpha_i,\hat{\alpha}_i\leq C\qquad\qquad\qquad\qquad\qquad\\ 需满足的KKT条件是：\alpha_i(f(x_i)-y_i-\epsilon-\xi_i)=0,\hat{\alpha}_i(y_i-f(x_i)-\epsilon-\hat{\xi}_i)=0,(C-\alpha_i)\xi_i=0\qquad\qquad\\(C-\hat{\alpha}_i)\hat{\xi}_i=0 \alpha_i\hat{\alpha}_i=0,\xi_i\hat{\xi}_i=0\qquad\qquad\qquad\qquad\qquad\\ 当且仅当f(x_i)-y_i-\epsilon-\xi_i=0时，\alpha_i才能取非零值，当且仅当y_i-f(x_i)-\epsilon-\hat{\xi}_i=0时，\hat{\alpha}_i才能取非零值。\qquad\qquad\qquad\\ 此外上述情况不能同时成立，\alpha_i和\hat{\alpha}_i至少一个零。(\alpha_i-\hat{\alpha}_i)\neq0的样本为SVR的支持向量，其解仍具有稀疏性。\qquad\qquad\qquad\qquad\qquad\;\;\;\;\\ 此外，对于每个样本均有(C-\alpha_i))\xi_i=0且\alpha_i(f(x_i)-y_i-\epsilon-\xi_i)=0。若0<\alpha_i<C，则\xi_i=0\qquad\qquad\qquad\;\;\;\\ 进而有b=y_i+\epsilon-\sum_{i=1}^m(\hat{\alpha}_i-\alpha_i)x_i^Tx\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\;\;\\ 模型：f(x)=\sum_{i=1}^m(\hat{\alpha}_i-\alpha_i)x_i^Tx+b\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\;\;\;$

优缺点：

分析：支持向量机依靠边界样本来建立需要的分离曲线。它可以处理非线性决策边界。对边界的依赖，也使得它们有能力处理缺失数据中“明显的”样本实例。支持向量机能够处理大的特征空间，也因此成为文本分析中最受欢迎的算法之一，由于文本数据几乎总是产生大量的特征，所以在这种情况下逻辑回归并不是一个非常好的选择。SVM的结果并不像决策树那样直观。同时使用非线性核，使得支持向量机在大型数据上的训练非常耗时。

优点：

1.能够处理大型特征空间

2.能够处理非线性特征之间的相互作用

3.无需依赖整个数据

缺点：

1.当观测样本很多时，效率并不是很高

2.有时候很难找到一个合适的核函数

LR 与 SVM：

如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是Linear Kernel的SVM
如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel
如果Feature的数量比较小，而样本数量很多，需要手工添加一些feature变成第一种情况

xmpp10

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SVM支持矢量机

通过间隔最大化→分离超平面:wTx+b=0→决策函数：h(x)=sign(wTx+b)通过间隔最大化\rightarrow分离超平面:w^Tx+b=0\rightarrow 决策函数：h(x)=sign(w^Tx+b)函数间隔与几何间隔：函数间隔：γ^i=yi(w⋅xi+b)几何间隔：γi=yi(w∥w∥⋅xi+b∥w∥)函数间隔：\hat\gamma_i=y_i(w\cdot x_i+b)\;\
复制链接

扫一扫