1.1.14. Perceptron（感知机）

最新推荐文章于 2024-06-12 21:38:32 发布

matrix_studio

最新推荐文章于 2024-06-12 21:38:32 发布

阅读量125

点赞数 2

分类专栏：从sklearn学机器学习文章标签：机器学习支持向量机算法

本文链接：https://blog.csdn.net/matrix_studio/article/details/121729249

版权

23 篇文章 29 订阅

订阅专栏

1.1.14. Perceptron

感知机是一个十分经典的二分类线性模型（虽然它可以推广到多分类、非线性），它是神经网络和支持向量机的基础。

《统计学习方法》中是这么说的：
感知机学习，旨在求出将训练数据进行线性划分的分类超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行最小化，求得感知机模型。

这里做进一步的解释：

选择误分类点到超平面 $S$ 的总距离作为损失函数，而不是简单的用误分类点点数量是因为，我们希望损失函数是关于参数 $(\omega,b)$ 的连续可导函数。
如果数据集是线性可分的，那么损失函数最后一定可以优化为0（因为线性可分的数据集是存在完美划分数据集的线性超平面的）；如果数据集线性不可分，那么感知机会选择到误分类点总距离最小的超平面 $S$
随机梯度下降可以大大减少计算量，尤其是当感知机模型的训练仅依赖于误分类点的情况

作为三大线性模型最优准则来说，基于误分类点的感知机准则是很多主动学习、在线学习模型的基础
对于同一个数据集，我们可以视每个样本到多个不同超平面的距离为多个不同的新的特征。同时，对这些特征进行非线性到处理（比如用sigmoid函数压缩到0～1之间），然后作为新的特征输入下一个感知机，这就是神经网络的基础
因为选择随机梯度下降作为算法，会造成训练感知机模型的过程中，每次选择的样本点和选择的顺序不固定，从而造成最后会存在多解（感知机只负责求损失函数的极值，却没有限定必须达到损失函数的最小值）。支持向量机的最大间隔思想就是对这个问题的优化。

在这里插入图片描述

skearn里是这么描述感知机的：

而且，感知机模型，在训练上，比带hinge（折页）损失函数的SGD模型更快，同时也更稀疏。

关注