统计学习方法感知机学习算法

Air浩瀚

已于 2023-05-26 13:24:25 修改

阅读量290

点赞数 1

分类专栏： # ML 文章标签：算法学习方法学习

于 2023-05-18 23:33:48 首次发布

本文链接：https://blog.csdn.net/Ryansior/article/details/130757412

版权

ML 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章目录

统计学习方法感知机学习算法
- 感知机输入算法的原始形式
- 算法的收敛性

统计学习方法感知机学习算法

读李航《统计学习方法》的一些笔记，感知机学习算法的推导过程有一些细节想记录一下。

感知机输入算法的原始形式

我们这里只讨论感知机学习算法的原始形式，这个问题的对偶形式还是容易理解的。

给定一个训练数据集：
$T=\{(x_1,\,y_1),\,(x_2,\,y_2),\,\cdots,\,(x_N,\,y_N)\}$
其中 $x_i\in\mathcal{X}=\bold{R}^n$ ， $y_i\in\mathcal{Y}=\{-1,\,1\}$ ， $i=1,\,2,\,\cdots,\,N$ ，求参数 $w$ 和 $b$ ，使得以下损失函数极小化：
$\min_{w,\,b}L(w,\,b)=-\sum_{x_i\in M}y_i(w\cdot x_i +b)$
其中 $M$ 为误分类点的集合。 $w$ 和 $b$ 构成了一个超平面，将正类和负类分开（如果数据集完全可分的话）。 $w$ 和 $x$ 的维数是一样的，这里 $\cdot$ 代表内积，也可以写成 $w^Tx_i$ ；而 $b$ 是一个常数值。

我们采用随机梯度下降法来学习参数 $w$ 和 $b$ ，梯度为：
$\begin{align} \nabla_wL(w,\,b)=&\,-\sum\limits_{x_i\in M}y_ix_i \\ \nabla_bL(w,\,b)=&\,-\sum\limits_{x_i\in M}y_i \\ \end{align}$
但学习的时候并不是一次使 $M$ 中所有的误分类点都梯度下降，而是一次随机选取一个误分类点使其梯度下降：

算法：感知机学习算法的原始形式

输入：训练数据集 $T$ ，学习率 $\eta$ ；

输出： $w$ ， $b$ ，感知机模型 $f(x)=\text{sign}(w\cdot x+b)$ ；

选取初值 $w_0$ 和 $b_0$ ；
在训练集中选取数据 $x_i,\,y_i)$ ；
若 $y_i(w\cdot x_i+b) \leq 0$ ：

$\begin{align} w \leftarrow&\, w+\eta y_ix_i \\ b \leftarrow&\, b+\eta y_i \end{align}$

若当前训练集中仍有误分类点，则跳转至 2. ，否则结束；

算法的收敛性

当数据集不可分时，显然上述算法会震荡。现在证明，对于线性可分数据集，感知机学习算法原始形式收敛，即经过有限次迭代就可以得到一个将数据集完全正确划分的分离超平面及感知机模型。

为了数学推导方面，我们将偏置 $b$ 放入权重向量 $w$ ，记作 $\hat{w}=[w^t,\,b]^T$ 。同样将输入向量进行增广，得到 $\hat{x}=[x^T,\,1]^T$ ，显然：
$\hat{w}\cdot\hat{x}=w\cdot x+b$
Th 2.1（Novikoff） 设训练数据集 $T$ 是线性可分的，则：

存在满足条件 $||\hat{w}_{opt}||=1$ 的超平面 $\hat{w}_{opt}\cdot \hat{x}=0$ 将训练数据集完全正确分开，且存在 $\gamma >0$ ，对所有 $i=1,\,2,\,\cdots,\,N$ ，都有：

$y_i(\hat{w}_{opt}\cdot \hat{x}_{i})=y_i(w_{opt}\cdot x_{i}+b_{opt})\geq \gamma$

令 $R=\max\limits_{1\leq i\leq N}||\hat{x}_{i}||$ ，则感知机算法在训练数据集上的误分类次数 $k$ 满足：

$k\leq \left(\frac{R}{\gamma}\right)^2$

证明：第一点较为简单。因为训练数据集线性可分，因此存在超平面 $w_{opt},\,b_{opt})$ 可将数据集完全正确分开。只要令：
$\gamma=\min_{i}\{ y_i(w_{opt}\cdot x_i+b_{opt}) \}$
就有：
$y_i(\hat{w}_{opt}\cdot \hat{x}_{i})=y_i(w_{opt}\cdot x_{i}+b_{opt})\geq \gamma$
现在来看第二点，看起来还蛮神奇的。感知机算法从 $\hat{w}_0=0$ 开始，记每一次迭代得到的参数为 $\hat{w}_k$ 。第 $k$ 个参数下，记 $x_i,\,y_i)$ 是被误分类的实例，则条件是：
$y_i(\hat{w}_{k-1}\cdot \hat{x}_i)=y_i(w_{k-1}\cdot x_i + b_{k-1})\leq 0$
$w$ 和 $b$ 的更新是：
$\begin{align} w_k \leftarrow&\, w_{k-1}+\eta y_ix_i \\ b_k \leftarrow&\, b_{k-1}+\eta y_i \end{align}$
即：
$\hat{w}_k=\hat{w}_{k-1}+\eta y_i\hat{x}_i$
下面证明两个不等式：

① 由于我们是从 $\hat{w}_0=0$ 开始的，因此迭代过程中的参数应当从小到大越来越接近 $\hat{w}_{opt}$ ，即 $w_{k}$ 与 $w_{opt}$ 的内积越来越大：
$\begin{align} \hat{w}_k\cdot \hat{w}_{opt} =&\, \hat{w}_{k-1}\cdot \hat{w}_{opt}+\eta y_i\hat{w}_{opt}\cdot\hat{x}_i \\ \geq &\, \hat{w}_{k-1}\cdot \hat{w}_{opt}+\eta \gamma \\ \geq &\, \hat{w}_{k-2}\cdot \hat{w}_{opt}+2\eta \gamma \\ \geq &\, \cdots \\ \geq &\, k\eta \gamma \end{align}$

第二个大于等于是因为，我们已经假设了 $\gamma$ 是最小的 $y_i\hat{w}_{opt}\hat{x}_i$ ，因此任意 $i$ 都有 $y_i\hat{w}_{opt}\hat{x}_i\geq \gamma$ ；

即：
$\hat{w}_k\cdot \hat{w}_{opt}\geq k\eta \gamma$
② 由于我们是从 $\hat{w}_0=0$ 开始的，因此迭代过程中的参数更新过大时，就会被后续的迭代给“拉”回来：
$\begin{align} ||\hat{w}_k||^2=&\,||\hat{w}_{k-1}||^2+2\eta y_i\hat{w}_{k-1}\cdot \hat{x}_i+\eta^2||\hat{x}_i||^2 \\ \leq &\, ||\hat{w}_{k-1}||^2+\eta||\hat{x}_i||^2 \\ \leq &\, ||\hat{w}_{k-1}||^2+\eta R^2 \\ \leq &\, ||\hat{w}_{k-2}||^2+2\eta R^2 \\ \leq &\, \cdots \\ \leq &\, k\eta^2R^2 \end{align}$

第一个等号是因为：

$\begin{align} ||\hat{w}_k||^2=&\,\hat{w}_k^T\hat{w}_k \\ =&\,(\hat{w}_{k-1}+\eta y_i\hat{x}_i)^T(\hat{w}_{k-1}+\eta y_i\hat{x}_i) \\ =&\,(\hat{w}_{k-1}^T+\eta y_i\hat{x}_i^T)(\hat{w}_{k-1}+\eta y_i\hat{x}_i) \\ =&\,\hat{w}_{k-1}^T\hat{w}_{k-1}+\eta y_i(\hat{w}_{k-1}^T\hat{x}_i+\hat{x}_i^T\hat{w}_{k-1})+\eta^2y_i^2\hat{x}_i^T\hat{x}_i \\ =&\,||\hat{w}_{k-1}||^2+2\eta y_i\hat{w}_{k-1}\cdot \hat{x}_i+\eta^2||\hat{x}_i||^2 \quad\text{(有$\,y_i^2=1$)} \end{align}$

第二个小于等于是因为我们假设 $x_i,\,y_i)$ 是被误分类的实例，因此 $y_i\hat{w}_{k-1}\cdot \hat{x}_i<0$ ；
第三个小于等于是因为我们假设 $R$ 是最大的特征向量的模，因此对于任意 $i$ 都有 $\geq ||\hat{x}_i||$ ；

即：
$||\hat{w}_k||^2\leq k\eta^2R^2$
综合不等式 ① 和 ② 得：
$\begin{array}{c} k\eta \gamma \leq \hat{w}_k\cdot \hat{w}_{opt} \leq ||\hat{w}_{k}||\,||\hat{w}_{opt}|| \leq \sqrt{k}\eta R \\ \Rightarrow k^2\gamma^2 \leq kR^2 \end{array}$