统计学习方法 - 第二章 - 感知机

最新推荐文章于 2022-07-09 21:12:10 发布

cnyanpan

最新推荐文章于 2022-07-09 21:12:10 发布

阅读量197

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/cnyanpan/article/details/89854977

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文详细介绍了感知机模型，包括其寻找超平面的定义、损失函数及其物理意义，以及感知机的学习算法，包括随机梯度下降法和有限性性质的证明。此外，还提及了对偶形式的感知机，虽然它没有带来显著的新特性。

摘要由CSDN通过智能技术生成

第二章感知机

文章目录

- 第二章感知机

2.1 感知机模型

感知机算法在输入空间内找到一个超平面 $S$ ：
$w\cdot x+b=\hat w\cdot\hat x=0$
由函数：
$f(x)=sign(\hat w\cdot\hat x)$
给出样本的标签。其中 $\hat w=(w, b)$ , $\hat b = (x,1)$ 。

2.2 感知机学习策略

感知机的损失函数由误分类点到超平面 $S$ 的距离给出。空间内任意一点 $x_0$ 到超平面 $S$ 的距离可以由以下公式给出：
$\frac{1}{||w||}|w\cdot x_0+b|$
显然可得，对于任意误分类样本 $x_i,y_i)$ 有：
$-y_i(w\cdot x_i+b)>0$
那么对于感知机模型，其误分类点集合为 $M$ ，所有误分类点到超平面的距离的和为：
$-\frac{1}{||w||}\sum_{x_i\in M}y_i(\hat w\cdot \hat b_i )$
省略 $\frac{1}{||w||}$ ，得到感知机的损失函数：
$L(w,b)=-\sum_{x_i\in M}y_i(\hat w \cdot \hat x_i)$
损失函数的物理意义为各个误分类点到超平面的距离一定比例之和。

2.3 感知机学习算法

损失函数相对于权值和偏置的梯度（偏导数）为：
$\begin{matrix} \nabla_wL(w,b)=-\sum_{x_i\in M}y_ix_i\\ \nabla_bL(w,b)=-\sum_{x_i\in M}y_i \end{matrix}$
使用SGD对感知机进行优化，随机选取一个误分类 $x_i,y_i)$ ，对 $w, b$ 进行优化：
$\begin{matrix} w\leftarrow w+\eta y_ix_i\\ b\leftarrow b+\eta y_i \end{matrix}$
感知机算法的性质：

非负性：

假设数据集完全线性可分，那么一定有：
$y_i(\hat w_{opt}\cdot x_i)\geq\gamma$
即任意点到超平面的距离为正。

有限性：

令 $R=\max_{1\leq i\leq N}||\hat x_i||$ ，则感知机算法（从 $\hat w=0$ 出开始）在训练数据集上的误分类次数 $k $ 满足：
$k\leq\left(\frac{R}{\gamma}\right)^2$
假设对第 $k$ 个误分类点更新权重为：
$\hat w_k=\hat w_{k-1}+\eta y_i\hat x_i$
那么：
$\begin{matrix} \hat w_k\cdot \hat w_{opt}&=&\hat w_{k-1}\cdot \hat w_{opt}+\eta y_i\hat w_{opt}\hat x_i\\ &\geq&\hat w_{k-1}\cdot \hat w_{opt}+\eta \gamma\\ &\geq&\hat w_{k-2}\cdot \hat w_{opt}+2\eta \gamma\\ &\geq&k\eta \gamma\\ \end{matrix}$
将 $\hat w_k=\hat w_{k-1}+\eta y_i\hat x_i$ 变形：
$\begin{matrix} ||\hat w_k||^2&=&||\hat w_{k-1}||^2+2\eta y_i\hat w_{k-1}\cdot\hat x_i+\eta^2||\hat x_i||^2\\ &\leq&||\hat w_{k-1}||^2+\eta^2||\hat x_i||^2\\ &\leq&||\hat w_{k-1}||^2+\eta^2R^2\\ &\leq&||\hat w_{k-2}||^2+2\eta^2R^2\leq\cdots\\ &\leq&k\eta^2R^2 \end{matrix}$
得到：
$k\eta\gamma\leq\hat w_k\cdot \hat w_{opt}\leq||\hat w_k||\ ||\hat w_{opt}||$
显然可使向量 $\hat w_{opt}$ 满足 $||\hat w_{opt}||=1$ ，有：
$h\eta\gamma\leq\sqrt k\eta R\\ k^2\gamma^2\leq kR_2$
得证：
$k\leq\left(\frac{R}{\gamma}\right)^2$
对偶形式：对偶形式的基本想法是，将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数而求得 $w$ 和 $b$ 。

令感知机模型为：
$f(x)=sign(\sum_{j=1}^N\alpha_jy_jx_j\cdot x+b)$
其中 $\alpha=(\alpha_1, \alpha_2,\cdots, \alpha_N)^T$ .

$\alpha\leftarrow0, b\leftarrow0$
在训练集中选取数据 $x_i,y_i)$
如果 $y_i(\sum_{j=1}^N\alpha_jy_jx_j\cdot x_i+b)\geq 0$ :
$\alpha_i\leftarrow \alpha_i+\eta\\ b\leftarrow b+\eta y_i$
转至2直至无误分类数据。