支持向量机 4 模式识别的方法

最新推荐文章于 2022-10-04 15:13:03 发布

半只兔子M

最新推荐文章于 2022-10-04 15:13:03 发布

阅读量288

点赞数

分类专栏：支持向量机文章标签：机器学习模式识别支持向量机

本文链接：https://blog.csdn.net/qq_40525438/article/details/108173005

版权

4 模式识别的方法

4.1 神经网络

假设我们采用ERM原则，对给定数目的训练样本上设计了一个十分复杂的学习机器（VC维很大），在训练样本上经验风险可以很小，但置信区间变大，这种现象称为过学习或过适应。故我们希望在两者之间折衷考虑，这产生了两种方法：

保持置信范围一定（选择适当构造的机器），最小化经验风险，具体实现如神经网络
保持经验风险固定（如等于0，在完全可分时），最小化置信范围，具体实现如支持向量机

考虑指示函数集合
$\omega) = sgn\{ \omega \cdot x + b\}, \omega \in \R^n, b \in \R$
当训练数据对于 $\omega \in \R^n$ 无法完全正确分开时，我们只能希望找到错误最少的分类，但这一过程是NP完全的，而且我们无法使用基于梯度的算法找到局部极小值点（因指示函数导数要么为0，要么不存在），因此人们提出了用一个可导的函数(sigmoid)去逼近指示函数。

称平滑单调的函数 $S$ 为 sigmoid函数，若 $S$ 满足
$S(-\infty) = -1,\ \ S(+\infty) = 1$
一个典型的例子是
$\tanh(u) = \dfrac{e^u-e^{-u}}{e^u+e^{-u}}$
简单起见，不考虑常数偏置，设
$\omega) = S(\omega \cdot x), \omega \in \R^n \\ R_{emp} (\omega) = \dfrac{1}{l}\sum\limits_{i=1}^l (y_i - S(\omega \cdot x_i))^2$
有如下梯度下降解法（ $n$ 为迭代次数）
$grad_\omega R_{emp}(\omega) = -\dfrac{2}{l}\sum\limits_{j=1}^l (y_j - S(\omega \cdot x_j))S'(\omega \cdot x_j)x_j^T \\ \omega_{new} = \omega_{old} - \gamma(n) grad_\omega R_{emp}(\omega_{old})$
其中，梯度下降法收敛于局部极小值点的充分条件为梯度值有界，且系数满足
$\sum\limits_{n=1}^\infty \gamma(n) = \infty, \ \ \sum\limits_{n=1}^\infty \gamma^2(n) < \infty$

# 但实际操作过程中 $\gamma$ 即学习率始终为定值，尽管在有限次迭代之后终止（这可能意味着在有限次终止之后的无限次假想迭代过程中的 $\gamma$ 将满足上面的条件）

# 另外 $\dfrac{\partial \omega^T x}{\partial \omega} = Ix=x$ 而非 $x^T$ 这个情况也值得商榷。（即使从直觉角度， $\omega$ 与 $x$ 的形状相同，而我们要求经验风险梯度的形状与 $\omega$ 相同, 故也应该是 $x$ 而非 $x^T$ ）

后向传播方法

假设存在神经网络共 $m + 1$ 层，最后一层是单输出的感知器，前 $m$ 层满足
$x_i(k) = S(w(k)x_i(k-1)), k=1,2,...,m \\ u_i(k) = w(k)x_i(k-1) = [u^1_i(k),...,u^{n_k}_i(k)]^T \\ S(u_i(k)) = [S(u^1_i(k)),...,S(u^{n_k}_i(k))]^T$
$x_i(k)$ 为第i个样本的第k层向量， $w (k)$ 是连接第k-1层和第k层的权值矩阵，目标为最小化经验泛函
$=\dfrac{1}{l}\sum\limits_{i=1}^l (y_i - x_i(m))^2$
我们将其看作一个带等式约束条件的凸优化问题，采用拉格朗日乘子法解决：
$\dfrac{1}{l}\sum\limits_{i=1}^l (y_i - x_i(m))^2 -\sum\limits_{i=1}^l\sum\limits_{k=1}^m (b_i(k) \cdot [x_i(k) - S(w(k)x_i(k-1))])$

需要注意 $x_i(m)$ 为标量，但 $x_i(k), k \not = m$ 为向量。矩阵求导规律见《矩阵分析和应用（张贤达，第五章）》。

第一个子条件（前向动力）
$\dfrac{\partial L}{\partial b_i(k)} = 0\ \ \to \ \ x_i(k) = S(w(k)x_i(k-1)),\ \ i=1,...,l,\ k=1,...,m$
第一个子条件（后向动力）
$\dfrac{\partial L}{\partial x_i(m)} = 0\ \ \to \ \ b_i(m) = \dfrac{-2}{l} (y_i - x_i(m)),\ \ i=1,...,l \\ \dfrac{\partial L}{\partial x_i(k)} = 0, k \not = m\ \ \to \ \ 0=\dfrac{\partial (-b_i(k) \cdot x_i(k) + b_i(k+1) \cdot S(w(k+1)x_i(k)))}{\partial x_i(k)}\\=-b_i(k) + \dfrac{\partial S(w(k)x_i(k))}{\partial x_i(k)}b_i(k+1) \to b_i(k) = \dfrac{\partial S(w(k)x_i(k))}{\partial x_i(k)} b_i(k+1)$

第三个子条件（权值更新）
在极值点上 $\dfrac{\partial L}{\partial w(k)} = 0$ , 考虑不在极值点：
$\leftarrow w(k) - \gamma(n) \dfrac{\partial L}{\partial w(k)}, \ \ \dfrac{\partial L}{\partial w(k)} = \sum\limits_{i=1}^l b_i(k) \dfrac{\partial S(w(k)x_i(k-1))}{\partial w(k)}$

若将神经网络用于回归估计，只需在最后一层用线性函数来取代sigmoid函数即可。

4.2 支撑向量机

支持向量机 (Support Vector Machine, SVM, SV机)实现了如下方案：通过事先选择的某种映射将输入 $x$ 映射到高维空间 $Z$ 中向量 $z$ ，并在 $Z$ 中构造最优分类超平面。

$\Delta$ -间隔分类超平面

一个超平面 $w^* \cdot x + b = 0, ||w^*|| = 1$ 以如下方式将向量 $x$ 分类
$y=\begin{cases} 1 &if \ \ w^* \cdot x - b \ge \Delta \\ -1 &if \ \ w^* \cdot x - b \le -\Delta \end{cases}$
则称该超平面为 $\Delta$ -间隔分类超平面。关于 $\Delta$ -间隔分类超平面有如下定理

定理 4.1

设向量 $\in X$ 在一个半径为 $R$ 的球中，那么 $\Delta$ -间隔分类超平面的VC维 $\le \min\{[\dfrac{R^2}{\Delta^2}],n\} + 1$

定理 4.2

设 $l$ 个样本的训练集被最大间隔超平面完全分开， $P_{error}$ 为测试错误概率， $m$ 为支持向量的个数， $R$ 为包含所有训练集向量的最小超球半径， $\Delta$ 为间隔值， $n$ 为输入空间维数，则有
$E[P_{error}] \le E[\min\{\dfrac{m}{l}, \dfrac{[R^2\Delta^{-2}]}{l}, \dfrac{n}{l}\}]$

上述定理表明，间隔越大，VC维越小，测试错误概率越小。因此我们希望找到间隔尽可能大的超平面。

# 一般 $R(\alpha) = f(R_{emp}(\alpha), \Phi(\zeta))$ ，完全分类时 $R_{emp}(\alpha) = 0$ ，在3.4节情况3中， $R(\alpha) = \dfrac{R_{emp}(\alpha)}{(1-a(p)\tau\sqrt\zeta)_+}$ ，此时置信区间是否还起作用？若为情况2， $R(\alpha) = R_{emp}(\alpha) + \Phi(\zeta)$ ，那么我认为上述定理直接表明 $R(\alpha) \lesssim h / l$ ，这样的结果是不是有点太好了？

最优超平面

假定训练数据（向量集合）
$(x_1,y_1),...(x_n,y_n), x \in \R^n, y \in \{-1, +1\}$
可以被超平面 $\cdot x + b = 0$ 分开。若分开的结果为完全正确，且离超平面最近的向量与超平面之间的距离是所有可能中最大的，称该向量集合被 最优超平面 或 最大间隔超平面 分开。显然最优超平面为 $\Delta = 1/ ||w||$ 的 $\Delta$ -间隔分类超平面。
超平面的正确分类的条件为：
$\cdot x_i + b) \begin{cases} \ge 1 &if\ \ y_i = 1 \\ \le -1 &if\ \ y_i = -1 \end{cases}$
或者写成
$y_i[w \cdot x_i + b] \ge 1,\ \ i=1,...,l$
距离最大条件为
$\arg\min\{ \Phi(w) = ||w||^2\}$