Raki的统计学习方法笔记0x2章：感知机

最新推荐文章于 2024-08-31 15:42:00 发布

爱睡觉的Raki

最新推荐文章于 2024-08-31 15:42:00 发布

阅读量164

点赞数

分类专栏：统计学习方法文章标签：机器学习分类感知机人工智能统计学习方法

本文链接：https://blog.csdn.net/Raki_J/article/details/122233804

版权

统计学习方法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

感知机（perceptron）是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和–1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的输入实例进行分类。感知机1957年由
Rosenblatt提出，是神经网络与支持向量机的基础。

模型

感知机定义：假设输入空间（特征空间）是 $\mathcal{X}\subseteq R^n$ ，输出空间是 $Y$ ＝ {+1,-1}。输入 $x\in\mathcal{X}$ 表示实例的特征向量，对应于输入空间（特征空间）的点；输出 $y\subseteq \mathcal{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数:

$\begin{aligned} & \large \mathbf{f(x) = sign(w\cdot x + b)} \end{aligned}$

感知机属于线性分类模型，属于判别模型

学习策略

给定一个数据集 $T =$ {( $x_1,y_1$ ), ( $x_2,y_2$ )… ( $x_n,y_n$ )} 其中 $x_i \in \mathcal{X} = R^n, y_i \in \mathcal{Y}$ = {+1, -1}, $i = 1, 2, . . ., N$ ,如果存在某个超平面 $\cdot x + b$ 能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，则称数据集 $T$ 为线性可分数据集；否则，称数据集 $T$ 为线性不可分

损失函数的一个自然选择是误分类点的总数。但是，这样的损失函数不是参数 $\mathbf{w,b}$ 的连续可导函数，不易优化。损失函数的另一个选择是误分类点到超平面 $\mathbf{S}$ 的总距离，这是感知机所采用的。为此，首先写出输入空间 $\mathbf{R_n}$ 中任一点 $\mathbf{x_0}$ 到超平面 $\mathbf{S}$ 的距离：

$\Large \frac{1}{\lVert w \rVert}|w \cdot x_0 + b|$

假设超平面 $S$ 的误分类点集合为 $M$ ，那么所有错误分类点到超平面 $S$ 的总距离为：

$\Large -\frac{1}{\lVert w \rVert}\sum_{x_i\in M}y_i|w \cdot x_0 + b|$

不考虑 $\Large \frac{1}{\lVert w \rVert}$ 就得到感知机学习的损失函数： $\large \mathbf{L(w,b) = - \sum_{x_i\in M}y_i (w\cdot x_i +b)}$ ，这个损失函数就是感知机学习的经验风险函数

学习算法

输入：训练数据集 $T =$ {( $x_1,y_1$ ), ( $x_2,y_2$ )… ( $x_n,y_n$ )}，其中 $x_i \in \mathcal{X} = R^n, y_i \in \mathcal{Y}$ = {+1, -1}, $i = 1, 2, . . ., N$ ，学习率 $\eta(0<\eta \leq 1)$

输出： $w, b$ ；感知机模型 $f(x)=sign(w\cdot x + b)$

（1）选取初值 $w_0,b_0$
（2）在训练集中选取数据 $x_i,y_i)$
（3）如果 $y_i(w\cdot x_i + b) \leq 0$ ：
$\begin{aligned} & w \gets w + \eta y_ix_i \\ & b \gets b + \eta y_i & \end{aligned}$
（4）转至（2），直到训练集中没有误分类点

这种学习算法直观上有如下解释：当一个实例点被误分类，即位于分离超平面的错误一侧时，则调整 $\mathbf{w,b}$ 的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面间的距离，直至超平面越过该误分类点使其被正确分类。

感知机学习算法的对偶形式

误分类点通过
$\begin{aligned} & w \gets w + \eta y_ix_i \\ & b \gets b + \eta y_i & \end{aligned}$

逐步修改 $w, b$ ，设修改 $n$ 次，则 $w, b$ 关于 $x_i,y_i)$ 的增量分别是 $\alpha_iy_ix_i$ 和 $\alpha_iy_i$ ,这里 $\alpha_i = n_i\eta$ ，这样从学习过程不难看出，最后学习到的w,b可以分别表示为

$\begin{aligned} &\large w = \sum_{i=1}^N \alpha_iy_ix_i\\ & \large b = \sum_{i=1}^N \alpha_iy_i& \end{aligned}$
然后我们就可以愉快的导出感知学习算法的对偶形式

输出： $\alpha,b$ ，感知机模型 $sign(\sum_{j=1}^N\alpha_jy_jx_j \cdot x + b)$ ，其中 $\alpha = (\alpha_1, \alpha_2, ...,\alpha_N)^T$

（1） $\gets 0, b \gets 0$
（2）在训练集中选取数据 $x_i,y_i)$
（3）如果 $\large y_i(\sum_{j=1}^N\alpha_jy_jx_j \cdot x + b) \leq 0$ , 则:
$\begin{aligned} & {\alpha_i \gets \alpha_i + \eta} \\ & b \gets b + \eta y_i & \end{aligned}$

（4）转至（2），直到训练集中没有误分类点

对偶形式中训练实例仅以内积的形式出现，为了方便，可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储，这个矩阵就是所谓的Gram矩阵， $\mathbf{G} = [x_i \cdot x_j]_{N \times N}$

最后，当训练数据线性可分时，感知机学习算法是收敛的，误分类次数 $k$ 满足不等式：
$\begin{aligned} \large k \leq (\frac{R}{\gamma})^2 \end{aligned}$

爱睡觉的Raki

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Raki的统计学习方法笔记0x2章：感知机

感知机（perceptron）是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和–1二值。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的输入实例进行分类。感知机1957年由Rosenblatt提出，是神经网
复制链接

扫一扫

专栏目录