【机器学习笔记】——感知机（Perceptron）

最新推荐文章于 2024-02-19 14:15:00 发布

孙悟充

最新推荐文章于 2024-02-19 14:15:00 发布

阅读量2.3w

点赞数 28

分类专栏： python 机器学习文章标签： python 感知机 perceptron

本文链接：https://blog.csdn.net/huanyingzhizai/article/details/93525995

版权

1 感知机（Perceptron）

感知机是二类分类的线性分类模型，旨在求出将训练数据进行线性划分的分离超平面，因此导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。

1.1 定义

假设输入空间是 $\mathcal{X} \subseteq \mathbf{R}^n$ ，输出空间是 $\mathcal{Y} = \left\{+1,-1\right\}$ 。输入 $\in \mathcal{X}$ 表示实例的特征向量，对应于输入空间的点；输出 $\in \mathcal{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数

$\cdot x + b)$

称为感知机。其中， $\in \mathbf{R}^n$ 叫做权值（weight）或权值向量（weight vector）， $\in \mathbf{R}$ 叫做偏置（bias）。 $s i g n$ 是符号函数，即

$\begin{cases} +1, & x \ge 0 \\ -1, & x \lt 0 \end{cases}$

1.2 几何解释

线性方程

$\cdot x + b = 0$

对于特征空间 $\mathbf{R}^n$ 中的一个超平面 S ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点（特征向量）分别被分为正、负两类。因此超平面 $S$ 称为分离超平面，如图所示

在这里插入图片描述

感知机通过训练训练集数据求得感知机模型，即求得模型参数 $w$ ， $b$ 。通过学习得到的感知机模型，对于新的输入实例给出其对应的输出类别。

1.3 学习策略

假设训练数据集是线性可分的，我们需要找到一个前面所说的分离超平面，即确定感知机模型参数 $w$ ， $b$ 。这需要制定一个学习策略，即定义损失函数并将损失函数极小化。

首先考虑误分点总数，但因其不是参数 $w$ ， $b$ 的连续可导函数，不易优化，因此选择误分点到超平面 $S$ 的总距离。我们知道一个点 $x_0$ 到平面 $\cdot x + b$ 的距离 $d$ 为 $\frac{1}{||w||}| w \cdot x_0 + b |$ ，对于误分点 $x_i,y_i)$ 来说，当 $\cdot x_i + b \gt 0$ 时， $y_i = -1$ ；当 $\cdot x_i + b \lt 0$ 时， $y_i = +1$ 。所以有：

$-y_i (w \cdot x_i + b) \gt 0$

于是误分点到超平面 $S$ 的距离为：

$-\frac{1}{||w||}y_i(w \cdot x_0 + b)$

假设超平面 $S$ 的误分点集合为 $M$ ，那么误分点到超平面 $S$ 的总距离为：

$-\frac{1}{||w||} \sum_{x_i \in M} y_i (w \cdot x_i + b)$

因为 $w$ 的大小 $∣ ∣ w ∣ ∣$ 不会影响极小化的结果，因此，忽略 $\frac{1}{||w||}$ 就得到感知及学习的损失函数：

$\sum_{x_i \in M} y_i (w \cdot x_i + b)$

1.4 算法

1.4.1 原始形式

感知机学习算法是误分类驱动的，采用随机梯度下降（SGD）法极小化损失函数。首先任意选取一个超平面 $S_0$ （即初始化模型参数 $w_0$ ， $b_0$ ），然后随机选取一个误分类点（遍历数据集找到误分类的点）使其梯度下降（见CH12_2）：

最低0.47元/天解锁文章

孙悟充

关注

28
点赞
踩
161

收藏

觉得还不错? 一键收藏
2
评论
【机器学习笔记】——感知机（Perceptron）

目录1 感知机（Perceptron）1.1 定义1.2 几何解释1.3 学习策略1.4 算法1.4.1 原始形式1.4.2 对偶形式2 算法实现2.1 实现原始形式算法2.2 实现对偶形式算法2.3 sklearn练习——自定义数据二分类2.4 对比练习——鸢尾花数据分类鸢2.4.1 尾花数据集2.4.2 数据预处理与特征选择2.4.3 对比手写模型与sklearn效果2.4.3.1 准备...
复制链接

扫一扫