感知机模型_感知机模型是非线性-CSDN博客

本文链接：https://blog.csdn.net/Cai__yz/article/details/119498880

第二章感知机

文章目录

1 前言
2 感知机模型
3 感知机学习策略
- 3.1 线性可分性
- 3.2 学习策略
4 感知机学习算法
- 4.1 感知机学习算法的原始形式
- 4.2 感知机学习算法的收敛性
5 感知机学习算法的对偶形式

1 前言

感知机（perceptron）是线性分类模型，属于判别模型。输入是特征向量，输出是类别。其将特征空间划分为正负两类的分离超平面。感知机算法收敛的充要条件是数据集线性可分（在损失函数不是太离谱的前提下）。

2 感知机模型

$\in \mathbb R^n$
$\in \{+1, -1\}$
$\mathrm{sign}(w \cdot x + b)$
其中 $w\in\mathbb R^n$ 是权值或权值向量， $b\in\mathbb R$ 是偏置。也就是说，对于任意一个输入 $x$ ，其线性变换得到的 $\cdot x + b$ 的符号就代表了这个感知机认为 $x$ 所属的类别。

3 感知机学习策略

3.1 线性可分性

对于一个数据集
$T=\{(x_1, y_1),(x_2, y_2),...,(x_N,y_N)\}$
其中， $x\in\mathbb R^n$ ， $y\in \{+1, -1\}$ ， $i = 1, 2, . . ., N$ 。如果存在一个超平面 $S$
$S:w\cdot x+b=0$
能够将数据集的正负样本完全正确地划分到超平面的两侧，就称数据集 $T$ 是线性可分的。

3.2 学习策略

要找到一个能将数据集完全分开的超平面，即确定一组参数 $（ w, b ）$ ，为了能通过学习找到这一组 $（ w, b ）$ ，需要设计一种损失函数。

一种自然的想法是将误分类点的个数作为损失，但这样的损失函数不是关于 $w$ 和 $b$ 的连续可导函数，不方便优化。

感知机所采用的是误分类点到超平面的距离的和，首先，对于任意一点 $x_0$ ，其到超平面 $S$ 的距离为
$\frac{1}{||w||_2}|w \cdot x_0 + b|$
对于误分类的点而言
$\frac{1}{||w||_2}|w \cdot x_0 + b| = -\frac{1}{||w||_2}y_i(w \cdot x_0 + b)$
于是可以得到损失函数( $\frac{1}{||w||_2}$ 可直接忽略)
$L(w,b)=-\sum_{x_i\in M}{y_i(w \cdot x_0 + b)}$
其中 $M$ 是误分类点的集合。

4 感知机学习算法

4.1 感知机学习算法的原始形式

感知机学习算法是误分类驱动的，具体采用随机梯度下降。首先计算梯度。
$\begin{aligned} \nabla_w L(w,b)&=-\sum_{x_i\in M}{y_ix_i} \\ \nabla_b L(w,b)&=-\sum_{x_i\in M}{y_i} \end{aligned}$
随机选取一个误分类点（随机梯度下降），对 $w, b$ 进行更新
$\begin{aligned} w &\leftarrow w + \eta y_ix_i \\ b &\leftarrow b + \eta y_i \end{aligned}$
这里， $\eta$ 是learning rate。

算法终止的条件是所有分类点都被正确分类，由此可见只有在数据集线性可分的前提下，算法才能收敛。

4.2 感知机学习算法的收敛性

Novikoff定理描述了感知机学习算法的收敛性，这里给出定理（证明过程好长…我懒了）。

Novikoff 定理

设训练数据集 $T=\{(x_1, y_1),(x_2, y_2),...,(x_N,y_N)\}$ 是线性可分的，其中 $x\in\mathbb R^n$ ， $y\in \{+1, -1\}$ ， $i = 1, 2, . . ., N$ ，则

(1) 存在满足条件 $||\hat{w}_{opt}||=1$ 的超平面 $\hat{w}_{opt} \cdot \hat{x} = 0$ 将训练数据集完全正确分开；且存在 $\gamma > 0$ .对于所有 $i = 1, 2, . . ., N$
$y_i(\hat{w}_{opt} \cdot \hat{x}) \geqslant \gamma$

(2) 令 $\max \limits_{1\leqslant i \leqslant N}{||\hat{x}_i||}$ ，则感知机算法在数据集上的误分类次数 $k$ 满足不等式
$\leqslant (\frac{R}{\gamma})^2$