统计学习理论的本质笔记 5 模式识别的方法 part2(5.6-5.10)

本文链接：https://blog.csdn.net/qq_40525438/article/details/108126320

5 模式识别的方法

5.6 支持向量机

支持向量机 (Support Vector Machine, SVM, SV机)实现了如下方案：通过事先选择的某种映射将输入 $x$ 映射到高维空间 $Z$ 中向量 $z$ ，并在 $Z$ 中构造最优分类超平面。

5.6.1 高维空间的推广

定理 5.2
设 $l$ 个样本的训练集被最大间隔超平面完全分开， $P_{error}$ 为测试错误概率， $m$ 为支持向量的个数， $R$ 为包含所有训练集向量的最小超球半径， $\Delta$ 为间隔值， $n$ 为输入空间维数，则有
$E[P_{error}] \le E[\min\{\dfrac{m}{l}, \dfrac{[R^2\Delta^{-2}]}{l}, \dfrac{n}{l}\}]$

# 一般 $R(\alpha) = f(R_{emp}(\alpha), \Phi(\zeta))$ ，完全分类时 $R_{emp}(\alpha) = 0$ ，在3.4节情况3中， $R(\alpha) = \dfrac{R_{emp}(\alpha)}{(1-a(p)\tau\sqrt\zeta)_+}$ ，此时置信区间是否还起作用？若为情况2， $R(\alpha) = R_{emp}(\alpha) + \Phi(\zeta)$ ，那么我认为上述定理直接表明 $R(\alpha) \lesssim h / l$ ，这样的结果是不是有点太好了？

5.6.2 内积的回旋

考虑在hilbert空间中内积的一个一般表达(Courant and Hilber, 1953)
$z_i \cdot z_j = K(x_i, x_j),\ \ \ K(x_i, x_j) = \sum\limits_{k=1}^\infty a_k \psi(x_i)\psi(x_j),\ \ a_k >0$
定理 5.3
（Mercer）要保证 $L_2$ 下的对称函数 $K (u, v)$ 能以正的系数 $a_k > 0$ 展开为 $\sum\limits_{k=1}^\infty a_k \psi(u)\psi(v)$ 的充要条件为
$\forall g \not = 0, \int g^2(u)du < \infty,\ \ \iint K(u,v)g(u)g(v)dudv > 0$

5.6.3 构造SV机

$sgn\{ \sum\limits_{\alpha_i\not =0} y_i \alpha_i K(x_i, x) - b\}$
求解过程与前面的步骤完全一致。对偶问题为最大化泛函：
$W(\alpha) = \sum\limits_{i=1}^l \alpha_i - \dfrac{1}{2} \sum\limits_{i,j=1}^l \alpha_i \alpha_j y_i y_j K(x_i, x_j)$
约束条件为
$\sum\limits_{i=1}^l \alpha_i y_i = 0,\ \ \alpha_i \ge 0,\ \ \alpha_i(1-y_i(\sum\limits_{j=1}^ly_j \alpha_j K(x_j, x_i)-b)) = 0$

5.6.4 SV机的例子

要估计某一SV机的测试错误的界，我们需要估计VC维 $\approx R^2 ||w||^2$ ，其中
$||w||^2 = \sum\limits_{i,j=1}^l \alpha_i \alpha_j y_i y_j K(x_i, x_j)\\ 0 = \sum\limits_{i=1}^l \alpha_i(1-y_i(\sum\limits_{j=1}^ly_j \alpha_j K(x_j, x_i)-b)) =\\ \sum\limits_{i=1}^l \alpha_i - \sum\limits_{i,j=1}^l \alpha_i \alpha_j y_i y_j K(x_i, x_j) + b\sum\limits_{i=1}^l \alpha_i y_i \to ||w||^2 = \sum\limits_{i=1}^l \alpha_i$
$R$ 通过以下方式寻找：
$R^2 = R^2(K) = \min\limits_{a}\max\limits_{x_i} [K(x_i, x_i) - 2K(x_i,a) + K(a,a)]$
$a$ 为该最小超球中心。

多项式学习机器
$\cdot v) + 1]^d$
径向基函数机器(RBF)
$K_\gamma(||u -v||)$ 固定 $\gamma$ 时为非负单调减函数，且趋于0，如
$\exp\{ -\gamma||u -v||^2\}$
两层神经网络
$x_i) = S[v(x \cdot x_i) + c]$
参数 $v, c$ 仅在某些取值时满足定理5.3 Mercer条件。

5.7 SV机的实验

5.8 关于SV机的讨论

5.9 SVM与Logistic回归

5.9.1 Logistic 回归

对于模式识别问题，我们可以构建贝叶斯（最优）决策规则
$sgn\{ \ln \dfrac{P\{y=1|x\}}{1 - P\{y=1|x\}} \} = sgn\{ f(x, w_0)\}$
由上式我们可以得出如下结果（称为logistic回归）
$P\{y=1|x\} = \dfrac{e^{f(x, w_0)}}{1+e^{f(x, w_0)}}$
我们的目标是给定样本集，估计logistic回归的参数，采用风险泛函
$R_x(w) = E_{y|x}\ln(1+e^{-yf(x,w)})$
需确认该风险泛函确实在 $w_0$ 处取极值
$\dfrac{\partial R_x(w)}{\partial w} = P\{y=1|x\}\dfrac{\partial \ln(1+e^{-f(x,w)})}{\partial w} + P\{y=-1|x\}\dfrac{\partial \ln(1+e^{f(x,w)})}{\partial w}\\ = \dfrac{(e^{f(x,w)} - e^{f(x,w_0)})f'(x,w)}{(1+e^{f(x,w)})(1+e^{f(x,w_0)})} = 0$
假定我们所求的logistic回归是线性函数，即
$\cdot w + b, \ \ R_x(w) = E_{y|x}\ln(1+e^{-y[x \cdot w + b]})$
采用SRM方法，定义结构 $\cdot w \le r$ 进而采用类似软间隔的思路变为最小化泛函
$\Phi(w,b) = C \sum\limits_{i=1}^l \ln (1+e^{-y_i[x_i \cdot w + b]}) + \dfrac{1}{2} w \cdot w$
对 $\Phi(w,b)$ 求梯度，得
$\dfrac{\partial \Phi(w, b)}{\partial b} = 0 \to \sum\limits_{i=1}^l y_i \dfrac{ e^{-y_i[x_i \cdot w + b]}}{1+e^{-y_i[x_i \cdot w + b]}} = 0\\ \dfrac{\partial \Phi(w, b)}{\partial w} = 0 \to C\sum\limits_{i=1}^l y_i x_i \dfrac{ e^{-y_i[x_i \cdot w + b]}}{1+e^{-y_i[x_i \cdot w + b]}} = w$
引入变量
$\alpha_i = \dfrac{ e^{-y_i[x_i \cdot w + b]}}{1+e^{-y_i[x_i \cdot w + b]}}$
则有
$w=C\sum\limits_{i=1}^l \alpha_i y_i x_i,\ \ \sum\limits_{i=1}^l \alpha_i y_i = 0,\ \ 0 < \alpha_i < 1,\\ P\{y=1|x\} = \dfrac{e^{C\sum\limits_{i=1}^l \alpha_i y_i (x_i \cdot x) + b}}{1+e^{C\sum\limits_{i=1}^l \alpha_i y_i (x_i \cdot x) + b}}\\ \Phi = \dfrac{C^2}{2}\sum\limits_{i,j=1}^l \alpha_i \alpha_j y_i y_j (x_i \cdot x_j) + C \sum\limits_{i=1}^l \ln (1+e^{-y_i[C\sum\limits_{j=1}^l \alpha_j y_j (x_j \cdot x_i) + b]})$

# 原文说可用梯度下降法求上述 $\Phi$ 的极小值点，但这里如何确定关于 $\alpha$ 这是要求极大值还是极小值点？

5.9.2 SVM的风险函数

我们采用如下损失函数来近似logistic回归的损失函数
$c_1 (1- y(w \cdot x + b))_+$
且引入变量(形成约束条件)
$\xi_i = (1- y(w \cdot x + b))_+ \to y(w \cdot x + b)\ge 1- \xi_i,\ \ \xi_i \ge 0$
那么之前的目标泛函 $\Phi(w,b)$ 变为
$\Phi(w,b) = C \sum\limits_{i=1}^l \xi_i + \dfrac{1}{2} w \cdot w$
此问题我们已经在5.5节讨论过。

5.9.3 Logistic回归的 SVMn 逼近

我们采用如下损失函数来近似logistic回归的损失函数(称为样条逼近)
$\sum\limits_{k=1}^n c_k (d_k- y(w \cdot x + b))_+$
且引入变量(形成约束条件)
$\xi_{k,i} = (d_k - y(w \cdot x + b))_+ \to y(w \cdot x + b)\ge d_k- \xi_{k,i},\ \ \xi_{k,i} \ge 0$
那么之前的目标泛函 $\Phi(w,b)$ 变为
$\Phi(w,b) = C \sum\limits_{i=1}^l \sum\limits_{k=1}^n c_k \xi_{k,i} + \dfrac{1}{2} w \cdot w$
拉格朗日函数
$\alpha, \beta) = \dfrac{1}{2} w \cdot w + C\sum\limits_{i=1}^l\sum\limits_{k=1}^n c_k \xi_{k,i} + \sum\limits_{i=1}^l\sum\limits_{k=1}^n \alpha_{k,i} (d_k- \xi_{k,i} - y_i(w \cdot x_i +b)) + \sum\limits_{i=1}^l\sum\limits_{k=1}^n \beta_{k,i} (-\xi_{k,i}),\\ \alpha_{k,i} \ge 0,\ \ \beta_{k,i} \ge 0$
目标为 $\max\limits_{\alpha, \beta}\min\limits_{w, b, \xi}L$ ，对拉格朗日函数求梯度得
$\dfrac{\partial L}{\partial w} = 0 \to w = \sum\limits_{i=1}^l (\sum\limits_{k=1}^n \alpha_{k,i}) y_i x_i\\ \dfrac{\partial L}{\partial b} = 0 \to \sum\limits_{i=1}^l (\sum\limits_{k=1}^n \alpha_{k,i}) y_i = 0\\ \dfrac{\partial L}{\partial \xi_{k,i}} = 0 \to \alpha_{k,i} + \beta_{k,i} = Cc_k$
代入拉格朗日函数可得到该问题的对偶问题,最大化泛函
$W(\alpha) = \sum\limits_{i=1}^l\sum\limits_{k=1}^n \alpha_{k,i}d_k - \dfrac{1}{2}\sum\limits_{i,j=1}^l (\sum\limits_{k=1}^n\alpha_{k,i}) (\sum\limits_{k=1}^n\alpha_{k,j}) y_i y_j (x_i \cdot x_j)$
约束条件
$\sum\limits_{i=1}^l (\sum\limits_{k=1}^n\alpha_{k,i}) y_i = 0,\ \ 0 \le \alpha_{k,i} \le Cc_k,\ \ \beta_{k,i} = Cc_k- \alpha_{k,i}$
还需满足 Kuhn-Tucker条件
$\alpha_{k,i} (d_k- \xi_{k,i} - y_i(w \cdot x_i +b)) = 0,\ \ \beta_{k,i} \xi_{k,i} = 0$
logistic回归逼近为
$\sum\limits_{i=1}^l (\sum\limits_{k=1}^n\alpha_{k,i}) y_i (x_i \cdot x) + b\\P\{y=1|x\} = \dfrac{e^{f(x, w)}}{1+e^{f(x, w)}}$
或者更一般的，采用Mercer条件的核
$\sum\limits_{i=1}^l (\sum\limits_{k=1}^n\alpha_{k,i}) y_i K(x_i, x) + b\\ W(\alpha) = \sum\limits_{i=1}^l\sum\limits_{k=1}^l \alpha_{k,i}d_k - \dfrac{1}{2}\sum\limits_{i,j=1}^l (\sum\limits_{k=1}^n\alpha_{k,i}) (\sum\limits_{k=1}^n\alpha_{k,j}) y_i y_j K(x_i, x_j)\\ \sum\limits_{i=1}^l (\sum\limits_{k=1}^n\alpha_{k,i}) y_i = 0,\ \ 0 \le \alpha_{k,i} \le Cc_k,\ \ \beta_{k,i} = Cc_k- \alpha_{k,i}\\ \alpha_{k,i} (d_k- \xi_{k,i} - y_i(\sum\limits_{j=1}^l (\sum\limits_{k=1}^n \alpha_{k,j}) y_j K(x_j, x_i) +b)) = 0,\ \ \beta_{k,i} \xi_{k,i} = 0$
但Vapnik表示他们的实验并没有显示出SVMn比SVM对Logistic回归逼近有更大的优势。

5.10 SVM的组合

5.10.1 Adaboost方法

重新考虑风险泛函（不再使用Logistic回归）
$R(\alpha) = E_{y|x}e^{-yf(x,\alpha)}$
函数集中包含了函数
$\alpha_0) = \dfrac{1}{2}\ln\dfrac{P(y=1|x)}{P(y=-1|x)}$
即
$\dfrac{e^{f(x,\alpha_0)}}{e^{f(x,\alpha_0)} + e^{-f(x,\alpha_0)}}\\ P(y=-1|x) = \dfrac{e^{-f(x,\alpha_0)}}{e^{f(x,\alpha_0)} + e^{-f(x,\alpha_0)}}$
易知该函数恰可使 $R(\alpha)$ 最小。且 $sgn\{f(x, \alpha_0)\}$ 恰可使分类正确。采用经验风险代替风险，即最小化
$R_{emp}(\alpha) = \dfrac{1}{l}\sum\limits_{i=1}^l e^{-y_i f(x_i, \alpha)}$
贪婪优化步骤
该方法将在第k次迭代得到 $\beta_k) = \sum\limits_{r=1}^k d_r \phi_r(x), d_1 = 1$ , 其中 $\phi_r(x)$ 属于一个给定的指示函数集（这里应该是指 $\phi(x) = sgn\{K(x)\}$ ）。

第一次迭代时我们选择能最小化经验风险泛函的函数 $\phi_1(x)$ ，即最小化泛函(不妨去掉常数系数 $1 / l$ )
$R_{emp}(\beta_1) = \sum\limits_{i=1}^l e^{-y_i \phi_1(x_i)}$
由下面的推导过程可知，此即相当于
$R_{emp}(\beta_{k+1})|_{c^{k+1}_i = 1, d_{k+1} = 1}$
因而之后得出的某些结论也应适用于第一次迭代。
第k次我们得到了如下经验风险值
$R_{emp}(\beta_k) = \sum\limits_{i=1}^l e^{-y_i f(x_i, \beta_k)}$
并希望在此基础上（已经选定了 $\beta_k)$ ）最小化经验风险
$R_{emp}(\beta_{k+1}) = \sum\limits_{i=1}^l e^{-y_i f(x_i, \beta_{k+1})} = \sum\limits_{i=1}^l c^{k+1}_ie^{- y_id_{k+1}\phi_{k+1}(x_i)},\ \ c^{k+1}_i = e^{-y_i f(x_i, \beta_k)}$
引入如下参数
$c^{k+1}_+ = \sum\limits_{\{i: y_i \phi_{k=1}(x_i) = 1\}} c^{k+1}_i, \ \ \ \ c^{k+1}_- = \sum\limits_{\{i: y_i \phi_{k=1}(x_i) = -1\}} c^{k+1}_i$
则有
$\dfrac{\partial R_{emp}(\beta_{k+1})}{ \partial d_{k+1}} = 0 \to \sum\limits_{i=1}^l y_i \phi_{k+1}(x_i) c^{k+1}_i e^{- d_{k+1} y_i \phi_{k+1}(x_i)} = 0 \\ \to \sum\limits_{\{i: y_i \phi_{k=1}(x_i) = 1\}} c^{k+1}_i e^{- d_{k+1}} = \sum\limits_{\{i: y_i \phi_{k=1}(x_i) = -1\}} c^{k+1}_i e^{d_{k+1}},\ \ \ \sum\limits_{i=1}^lc^{k+2}_i y_i \phi_{k+1}(x_i) = 0\\ \to d_{k+1} = \dfrac{1}{2} \ln \dfrac{c^{k+1}_+}{c^{k+1}_-}, \ \ \ \sum\limits_{i=1}^lc^{k+1}_i y_i \phi_k(x_i) = 0$

事实上
$\min\limits_{\phi} \{\sum\limits_{i=1}^l c_i e^{- d y_i \phi(x_i)} \} \Leftrightarrow \min\limits_{z_i} \{\sum\limits_{i=1}^l -c_i z_i : z_i \in \{e^{-d}, e^d\} \} \\ \Leftrightarrow \min\limits_{z_i} \{\sum\limits_{i=1}^l -c_i z_i : z_i \in \{\dfrac{e^{-d} - e^d}{2}, \dfrac{ e^d - e^{-d}}{2}\} \} \\ \Leftrightarrow \min\limits_{z_i} \{\sum\limits_{i=1}^l -c_i z_i : z_i \in \{-1, 1\}\}$
故原文（不加推导地）给出选择 $\phi_{k+1}(x)$ 的方法:使之最小泛函
$R(\phi) = -\sum\limits_{i=1}^l c^{k+1}_i y_i \phi_{k+1}(x_i)$

利用上述递归步骤可给出决策规则（称为AdaBoost决策规则）
$sgn\{f(x, \alpha_N)\} = sgn\{\sum\limits_{r=1}^N d_r \phi_r(x)\}$

5.10.2 SVM的组合

# 以下理解可能与原文思想不符（原文直接给出了含 $\xi$ 的目标泛函和约束条件），同时，推导得出结论也与原文略有不同，值得商榷

使用上述AdaBoost方法的思路来构造SVM的组合，即找到N个软间隔最优超平面以贪婪的方式最小化泛函
$\sum\limits_{i=1}^l \exp\{ -y_i\sum\limits_{k=1}^N d_k sgn\{w_k \cdot x_i + b_k\} \}$
由5.10.1节可以知道，在第k次迭代过程中等价于最小化泛函（含第一次迭代）
$R(w_k, b_k) = -\sum\limits_{i=1}^l c^k_i y_i sgn\{w_k \cdot x_i + b_k\},\ \ c^1_i = 1$
考虑到分类正确或最小化上式时
$y_i sgn\{w_k \cdot x_i + b_k\} = 1 \Leftrightarrow y_i [w_k \cdot x_i + b_k] \ge 1, \exist w_k, b_k$
因而采用新的（近似等价的）损失函数
$Q=c^k_i (1- y_i [w_k \cdot x_i + b_k])_+ = c^k_i \xi_{k,i}$
在约束条件 $w_k \cdot w_k \le \Delta ^ {-2}$ 下最小化泛函
$R(w_k, b_k) = \sum\limits_{i=1}^l c^k_i \xi_{k,i}$
采用软间隔最优超平面，则需最小化泛函
$R(w_k, b_k) = \dfrac{1}{2} w_k \cdot w_k + C \sum\limits_{i=1}^l c^k_i \xi_{k,i}$
约束条件
$\xi_{k,i}\ge 0,\ \ (1- \xi_{k,i} - y_i [w_k \cdot x_i + b_k]) \le 0$
第k次迭代中(以下推导省略k)拉格朗日函数
$\alpha, \beta) = \dfrac{1}{2} w \cdot w + C\sum\limits_{i=1}^l c_i \xi_i + \sum\limits_{i=1}^l \alpha_i (1- \xi_i - y_i(w \cdot x_i +b)) + \sum\limits_{i=1}^l \beta_i (-\xi_i),\\ \alpha_i \ge 0,\ \ \beta_i \ge 0$
目标为 $\max\limits_{\alpha, \beta}\min\limits_{w, b, \xi}L$ ，对拉格朗日函数求梯度得
$\dfrac{\partial L}{\partial w} = 0 \to w = \sum\limits_{i=1}^l \alpha_i y_i x_i\\ \dfrac{\partial L}{\partial b} = 0 \to \sum\limits_{i=1}^l \alpha_i y_i = 0\\ \dfrac{\partial L}{\partial \xi_i} = 0 \to \alpha_i + \beta_i = Cc_i$
代入拉格朗日函数可得到该问题的对偶问题,最大化泛函
$W(\alpha) = \sum\limits_{i=1}^l \alpha_i - \dfrac{1}{2}\sum\limits_{i,j=1}^l \alpha_i \alpha_j y_i y_j (x_i \cdot x_j)$
约束条件
$\sum\limits_{i=1}^l \alpha_i y_i = 0,\ \ 0 \le \alpha_i \le Cc_i,\ \ \beta_i = Cc_i- \alpha_i$
还需满足 Kuhn-Tucker条件
$\alpha_i (1- \xi_i - y_i(w \cdot x_i +b)) = 0,\ \ \beta_i \xi_i = 0$

回顾5.10.1节便可以知道 $c^k_i,\ \ d_k$ 的值，故可以得出软间隔最优分类超平面，进而得到SVM组合的决策规则
$\Phi(x) = sgn\{\sum\limits_{r=1}^N d_r (w_k \cdot x + b_k)\} = sgn\{\sum\limits_{r=1}^N d_r (\sum\limits_{i=1}^l \alpha_{k,i} y_i (x_i \cdot x) + b_k)\}$
若采用Mercer条件核函数，只需把 $x_i \cdot x_j$ 变为 $K(x_i,x_j)$ 即可。