感知机原理与python实现

最新推荐文章于 2023-06-28 01:36:54 发布

holmosaint

最新推荐文章于 2023-06-28 01:36:54 发布

阅读量330

点赞数 1

分类专栏： machine learning 文章标签： Machine Learning Pattern Recognition 感知机

本文链接：https://blog.csdn.net/holmosaint/article/details/84931129

版权

本文详细介绍了感知机的工作原理，包括线性可分性、判别函数、损失函数和学习过程。同时，文章讨论了感知机在线性可分数据集上的收敛性，通过两种方式进行证明。此外，还提供了感知机的Python实现示例，并展示了实际运行过程中的挑战和解决策略。最后，给出了参考文献供进一步阅读。

摘要由CSDN通过智能技术生成

感知机原理与python实例

原理

线性可分

给定一个二类数据集的标签为正负1，如果存在某个超平面 $S$ ：
$w x + b = 0$
将所有正负实例点完全正确地划分到超平面的两侧，即对 $y = + 1$ 的实例有： $w x + b > 0$ ；即对 $y = - 1$ 的实例有： $w x + b < 0$ .

判别函数

针对标签为正负1的二分类问题，感知机的判别函数为：
$f (x) = s i g n (w x + b)$

损失函数

自然地想，损失函数应当是误分类的点的个数，但是这个函数是不可导的，所以优化起来比较困难。

考虑 $R^n$ 空间中的任意一点 $x_0$ 到超平面的距离为：
$\frac{1}{||w||_2}(wx_0 + b)$
对应误分类集合 $M$ 中的点来说：
$-\frac{y}{||w||_2}(wx + b) > 0$
所以最终选择的损失函数为：
$-\sum_{x \in M}y(wx + b)$

学习过程

目前学习的过程就变成使损失函数最小化的过程。
$\begin{aligned} (w, b) &= \arg \min_{w, b}L(w, b) \\ \frac{\partial L}{\partial w} &= -\sum_{x \in M}yx \\ \frac{\partial L}{\partial b} &= -\sum_{x \in M}y \end{aligned}$
通过梯度下降的方式，在每次迭代过程中以学习率 $\eta$ 更新 $w, b$ 的值，直到结果收敛或者达到指定的迭代次数为止。
$w^t = w^{t - 1} - \eta\frac{\partial L}{\partial w} \\ b^t = b^{t - 1} - \eta\frac{\partial L}{\partial b} \\$

收敛性证明

下面证明当数据是线性可分的情况下，感知机准则是一定收敛的。通过两种方法来进行证明。

方式一

方便起见，令 $a = (w^T, b)^T, z = (x^T, 1)^T$ 。
设最优的权重解为： $\hat{a}$ ，一定满足 $\forall x_i, \hat{a}^Tzy_i > 0$ 。
假设经过 $t$ 轮迭代之后的解为： $a^t$ ，在这一轮中仍然被分错的向量集合为： $\lbrace z|a^Tzy < 0 \rbrace$ ，根据上文描述的梯度下降的规则，在第 $t + 1$ 轮中，权重应当被更新为：
$a^{(t + 1)} = a^t + \sum_{x_i \in E(t)}y_iz_i$