统计学习方法——第2章感知机模型

最新推荐文章于 2021-11-08 09:56:20 发布

qq_37172182

最新推荐文章于 2021-11-08 09:56:20 发布

阅读量376

点赞数

分类专栏：机器学习文章标签：统计学习方法感知机模型

本文链接：https://blog.csdn.net/qq_37172182/article/details/97618752

版权

机器学习专栏收录该内容

21 篇文章 1 订阅

订阅专栏

感知机（perception）是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。

2.1 感知机模型

$f(x)=\operatorname{sign}(w \cdot x+b)$

$w$ 和 $b$ 为感知机模型参数， $\in \mathbf{R}^{n}$ 叫做权重或权值向量， $\in \mathbf{R}$ 叫做偏置， $w\cdot x$ 表示内积。

几何解释：

线性方程 $w\cdot x + b = 0$ 对应于特征空间 $\mathbf{R}^{n}$ 的一个超平面 $S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。这个超平面 $S$ 将特征空间划分为正负两类样本的空间。 $S$ 称为分离超平面。

线性可分性：如果存在某个超平面 $S$ 能够将正实例点和负实例点完全正确地划分到超平面两侧，则数据集具有线性可分性。

定理（Novikoff）:设训练数据集 $T = \{ (x_1, y_1), (x_2, y_2), ... , (x_N, y_N)\}$ 是线性可分的，其中 $x_{i} \in \mathcal{X}=\mathbf{R}^{n}$ , $y_{i} \in \mathcal{Y}=\{-1,+1\}$ ，则：

（1）存在满足条件 $||\hat w_{opt}|| = 1$ 的超平面 $\hat{w}_{\mathrm{opt}} \cdot \hat{x}=w_{\mathrm{opt}} \cdot x+b_{\mathrm{opt}}=0$ 将数据集完全正确分开；且存在 $\gamma >0$ ，满足：
$y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right) \geqslant \gamma$
（2）令 $max\{||\hat x_i||\}$ ,则感知算法在训练数据集上的误分类次数 $k$ 满足不等式：
$\leqslant\left(\frac{R}{\gamma}\right)^{2}$

2.2 感知机学习策略

对于误分类点 $x_i,y_i)$ , 当 $w\cdot x+b >0$ 时， $y_i=-1$ ;当 $w\cdot x+b <0$ 时， $y_i=+1$ ,所以有:
$-y_i(w\cdot x + b ) > 0$
误分类点 $x_i,y_i)$ 到超平面 $S$ 的距离为：
$-\dfrac{y_i(w\cdot x + b)}{||w||}$
设所有误分类点到超平面 $S$ 的集合为 $M$ ，则总距离(忽略 $\dfrac{1}{||w||}$ ) 为：
$d_s = -\sum_{x_i \in M}y_i(w\cdot x +b)$
因此，感知机 $\operatorname{sign}(w \cdot x+b)$ 的损失函数定义为：
$-\sum_{x_i \in M}y_i(w\cdot x + b)$

即感知机学习的是经验风险最小化的损失函数（经验风险函数）。

2.3 原始形式的感知机学习算法

感知机学习算法是误分类驱动，采用随机梯度下降（SGD）算法。随机选取超平面 $w_0,b_0)$ ，采用梯度下降算法最小化损失函数。对于误分类点 $x_i,y_i)$ ，满足: $y_i(w\cdot x + b \leqslant 0)$ ，采用如下更新方式：

$w$ 的梯度计算： $\nabla_{w} L(w, b)=-\sum_{x_{i} \in M} y_{i} x_{i}$ ；更新公式： $\leftarrow w+\eta y_{i} x_{i}$ ；

$b$ 的梯度计算： $\nabla_{b} L(w, b)=-\sum_{x_{i} \in M} y_{i}$ ；更新公式： $\leftarrow b+\eta y_{i}$ ；

注:感知机学习由于采用不同的初值或选取不同的误分类点，解可以不同。由Novikoff定理可知，误分类次数 $k$ 存在上界，经过有限次搜索可以找到将训练数据集完全分开的分离超平面，即当数据集线性可分时，感知学习算法是收敛的。为了得到唯一超平面，需要对超平面添加约束条件，即线性支持向量机。当训练数据集线性不可分时，感知机学习算法不收敛，迭代结果会发生振荡。

2.4 对偶形式的感知机学习算法

感知机模型：
$f(x)=\operatorname{sign}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x+b\right)$
其中 $\alpha=\left(\alpha_{1}, \alpha_{2}, \cdots, \alpha_{N}\right)^{\mathrm{T}}$ ， $\alpha_{i}=n_{i} \eta$ ，对于 $y_{i}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x_{i}+b\right) \leqslant 0$ ,采用如下更新公式：

$\leftarrow w+\eta y_{i} x_{i}$ ，最终学习的 $w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}$

$\leftarrow b+\eta y_{i}$ ，最终学习的 $b=\sum_{i=1}^{N} \alpha_{i} y_{i}$

为了方便，可以预定义并存储实例间内积矩阵，即Gram Matrix: $G=\left[x_{i} \cdot x_{j}\right]_{N\times N}$ 。

qq_37172182

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法——第2章感知机模型

第二章感知机感知机（perception）是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1。感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。2.1 感知机模型f(x)=sign⁡(w⋅x+b)f(x)=\operatorname{sign}(w \cdot x+b)f(x)=sign(w⋅x+b)www和bbb为感知机模...
复制链接

扫一扫