机器学习-感知机

Garker-gan

已于 2022-06-14 14:12:37 修改

阅读量150

点赞数

分类专栏：机器学习文章标签：机器学习算法分类

于 2022-06-13 22:37:08 首次发布

本文链接：https://blog.csdn.net/weixin_37443412/article/details/125266363

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

感知机

感知机是二类分类的线性分类模型，输入为是实例的特征向量，输出为实例的类别（取值-1和+1）。对应于输入空间中将实例划分为正负两类的分离超平面，属于判别模型。具有简单而易于实现的优点，分为原始形式和对偶形式。

1 感知机模型

假设输入空间X $\in$ $R^n$ ,输出空间Y={+1,-1}。则输入空间到输出空间的函数映射如下：
$f (x) = s i g n (w x + b)$
其中：
$\begin{cases} +1, & \text{x$\geq$0} \\[5ex] -1, & \text{x$<$0} \end{cases}$
对于感知机的几何解释，其线性方程可以表示为：
$w x + b = 0$
对应特征（输入）空间中的超平面，w为超平面的法向量，b为超平面的截距。该超平面将特征（输入）空间分为两个部分，即正类和负类。
在这里插入图片描述

2 感知机的学习策略

感知机学习的目标是求得一个能够将训练集正实例和负实例完全正确分开的分离超平面，为了找出这样的超平面，即确定感知机模型的参数w和b。
我们通过定义损失函数并将损失函数值极小化的学习策略来找到最佳的w和b。
对于误分类的数据点 $x_i,y_i)$ ，其到超平面S的距离为：
$-\frac{1}{||w||}y_i(wx_i+b)$
其中 $∣ ∣ w ∣ ∣$ 为 $L_2$ 范数，即 $\sqrt{a^2+b^2}$ 。
对所有误分类点到超平面的距离求和即可得到总距离。在不考虑 $\frac{1}{||w||}$ 的情况下，便得到感知机学习的损失函数。
$L(w,b)=-\sum_{x\in M}y_i(wx_i+b)$
其中损失函数值始终为正，且连续可导。

3 感知机的学习算法

感知机学习算法分为原始形式和对偶形式。

3.1 原始形式

3.1.1 感知机学习算法的原始形式

找到最佳的w和b值，即找出损失函数的极小值。因为转化为了极小化问题，于是我们采用随机梯度下降法。原始形式算法如下：
输入：训练集 $T={(x_1,y_1),(x_2,y_2),...,(x_i,yi)}$ ,其中 $x_i\in X= R^n, y_i \in Y={+1, -1}$ ，学习率 $\eta(0 < \eta \leq 1)$ （即步长）；
输出：w,b;感知机模型 $f (x) = s i g n (w x + b)$ 。
(1)任意选取初值 $w_0, b_0$ ；
(2)从训练集中选取数据 $x_i, y_i)$ ；
(3)如果 $y_i(wx_i+b) \leq0$ ,更新参数
$\leftarrow w + \eta y_ix_i$
$\leftarrow b + \eta y_i$
(4)转到(2)，直到训练集中没有误分类点。
当一个实例点被误分类，即位于分离超平面的错误一侧时，调整w，b的值，使分离超平面向该误分类点的一侧移动，以减少该误分类点与超平面间的距离，直至超平面越过该误分类点使其被正确分类。
需要注意的是，由于采用不同的初值或选取不同的误分类点，解可以不同。

3.2 算法的收敛性

将偏置b并入权重向量w，记作 $\widehat{w}=(w^T ,b)^T$ ,同样地输入向量也加入常数1，记作 $\widehat{x}=(x^T,1)^T$ 。得到 $\widehat w \widehat x= wx+b$ 。
(Novikoff定理)（1）存在满足条件 $||\widehat w_{opt}||=1$ 的超平面 $\widehat w_{opt} \widehat x= w_{opt}x+b_{opt}=0$ 将训练集完全正确分开，且存在 $\gamma > 0$ ，则
$y_i(\widehat w_{opt}\widehat x_i)=y_i(w_{opt}x+b_{opt}) \geq \gamma \tag {a}$
(2)令 $R=max||x_i||$ ,那么误分类次数k满足不等式：
$\leq \left(\frac{R}{\gamma}\right)^2 \tag {b}$
证明
由公式(a)和 $\widehat w_k= \widehat w_{k-1}+\eta y_ix_i$ 可以推导出：
$\widehat w_k \widehat w_{opt} \geq k\eta\gamma \tag{c}$
同样的，由 $y_i(\widehat w_{k-1} \widehat x_i)=y_i(w_{k-1}x_i+b_{k-1}) \leq0$ 和 $\widehat w_k= \widehat w_{k-1}+\eta y_ix_i$ 推导出：
$||\widehat w||^2 \leq k\eta^2R^2 \tag{d}$
由公式©和(d)可得：
$k\eta\gamma \leq \widehat w_k \widehat w_{opt} \leq ||\widehat w_k||||\widehat w_{opt}|| \leq \sqrt{k} \eta R$
于是可得：
$\leq \left(\frac{R}{\gamma}\right)^2$

3.3 对偶形式

设w,b更新了n次，w,b关于 $x_i,y_i)$ 的增量分别是 $\alpha_iy_ix_i$ 和 $\alpha_iy_i$ 。其中 $\alpha_i=n_i\eta$ ， $n_i$ 是点 $x_i,y_i)$ 误分类的次数。最终得到的w和b可以表示为：
$w=\sum_{i=1}^{N}\alpha_iy_ix_i$
$b=\sum_{i=1}^{N}\alpha_iy_i$
输入：训练集 $T={(x_1,y_1),(x_2,y_2),...,(x_i,yi)}$ ,其中 $x_i\in X= R^n, y_i \in Y={+1, -1}$ ，学习率 $\eta(0 < \eta \leq 1)$ （即步长）；
输出： $\alpha$ ,b;感知机模型 $sign(\sum_{j=1}^{N}\alpha_jy_ix_j+b)$ ,其中 $\alpha=(\alpha_1,\alpha_2,...,\alpha_n)$ .
(1) $\alpha \leftarrow 0$ , $\leftarrow 0$
(2)从训练集中选取数据 $x_i, y_i)$ ；
(3)如果 $y_i(\sum_{j=1}^{N}\alpha_jy_ix_j+b)x_i+b) \leq0$ ,更新参数
$\alpha_i \leftarrow \alpha_i + \eta$
$\eta y_i$
(4)转到(2)，直到训练集中没有误分类点。