感知器学习笔记

最新推荐文章于 2021-09-26 20:58:32 发布

liyuanbhu

最新推荐文章于 2021-09-26 20:58:32 发布

阅读量1.2w

点赞数 4

分类专栏：科普文章标签：统计学习理论

本文链接：https://blog.csdn.net/liyuanbhu/article/details/51622695

版权

科普专栏收录该内容

64 篇文章 15 订阅

订阅专栏

感知器学习笔记

感知器（Perceptron）是一种用于线性可分数据集的二类分类器算法。这种算法的局限性很大：

只能将数据分为 2 类
数据必须是线性可分的

虽然有这些局限，但是感知器是 ANN 和 SVM 的基础，理解了感知器的原理，对学习ANN 和 SVM 会有帮助，所以还是值得花些时间的。

感知器可以表示为 $f: R^N \rightarrow \{-1, 1\}$ 的映射函数。其中 $f$ 的形式如下：

f (x) = s i g n (w . x + b)

$f(\mathbf{x}) = sign(\mathbf{w}.\mathbf{x}+ \mathbf{b})$
其中，

w $\mathbf{w}$ 和

b $\mathbf{b}$ 都是

N $N$ 维向量，是感知器的模型参数。感知器的训练过程其实就是求解

w $\mathbf{w}$ 和

b $\mathbf{b}$ 的过程。正确的

w $\mathbf{w}$ 和

b $\mathbf{b}$ 所构成的超平面

w.x+b=0 $\mathbf{w} . \mathbf{x} + \mathbf{b} = 0$ 恰好将两类数据点分割在这个平面的两侧。

感知器的训练算法

误分类的点 $(\mathbf x_i,y_i)$ ，则 $\mathbf x_i$ 距离超平面的距离为：

1 | | w | | | w \cdot x i + b |

$\frac{1}{||\mathbf w||}|\mathbf{ w\cdot x_i}+ \mathbf b|$

，其中 $||\mathbf w||$ 为 $\mathbf w$ 的 $L_2$ 范数。

由于 $|y_i|=1$ ，因此上式恰好等于

- y i ( w \cdot x i + b ) | | w | |

$\frac{- y_i(\mathbf{ w\cdot x_i}+ \mathbf b)}{||\mathbf w||}$

定义损失函数为所有误分类数据点到超平面的距离之和。

L 0 (w, b) = - 1 | | w | | \sum x i \in M y i (w \cdot x i + b)

$L_0(\mathbf w, \mathbf b)=-\frac{1}{||\mathbf w||}\sum_{\mathbf x_i \in M}y_i(\mathbf{w\cdot x_i}+ \mathbf {b})$

如果没有误分类点，则 $L(\mathbf w, \mathbf{b}) = 0$ 。感知器的训练算法就是求取使得 $L(\mathbf w, \mathbf b) = 0$ 的 $\mathbf{w}$ 和 $\mathbf{b}$ 。

大多数教科书上给出的感知机 $sign(\mathbf{w\cdot x}+ \mathbf b)$ 学习的损失函数定义为：

L (w, b) = - \sum x i \in M y i (w \cdot x i + b)

$L(\mathbf w,b)=-\sum_{\mathbf x_i \in M}y_i(\mathbf{w\cdot x_i}+b)$

可以看到这个定义去掉了分母的 $||\mathbf w||$ 。当 $||\mathbf w|| \neq 0$ 时， $L_0(\mathbf w, \mathbf b) = 0$ 和 $L(\mathbf w, \mathbf b) = 0$ 是等价的。而感知器的训练算法可以保证最终求得的 $\mathbf w$ 满足条件 $||\mathbf w||$ 。所以这样定义损失函数倒也没有问题。

感知机学习算法

1.感知机学习算法的原始形式：

训练集：

T = {(x 1, y 1), (x 2, y 2), \dots, (x N, y N)}, x i \in R n, y i \in {+ 1, - 1}

$T=\{(\mathbf {x}_1,y_1),(\mathbf {x}_2,y_2),\cdots,(\mathbf{x}_N,y_N)\},\\ \mathbf x_i \in \mathbb R^{n},\\ y_i \in \{+1,-1\}$
，求参数

w,b $\mathbf w, \mathbf{b}$ ，使得

min w, b L (w, b) = min w, b ⎡ ⎣ - \sum x i \in M y i (w \cdot x i + b) ⎤ ⎦

$\min_{\mathbf{w},\mathbf{b}} L(\mathbf w, \mathbf{b}) = \min_{\mathbf w,\mathbf{b}}\left[-\sum_{\mathbf x_i \in M}y_i(\mathbf{w\cdot x_i}+ \mathbf{b})\right]$
- 假设误分类点集合 M 是固定的，则损失函数

L(w,b) $L(\mathbf w,\mathbf{b})$ 的梯度由：

\nabla w L (w, b) = - \sum x i \in M y i x i \nabla b L (w, b) = - \sum x i \in M y i

$\nabla_\mathbf{w} L(\mathbf w,\mathbf{b})=- \sum_{\mathbf x_i \in M}y_i \mathbf x_i \\ \nabla_\mathbf{b} L(\mathbf w,b)=-\sum_{\mathbf x_i \in M}y_i$

这两个梯度给出的是损失函数增长的方向。后面使用时需用反方向。

梯度下降法：随机选取一个误分类点 $(\mathbf x_i,y_i)$ ，对 $\mathbf w, \mathbf{b}$ 进行更新：
$w \leftarrow w + η . y i x i b \leftarrow b + η . y i$ $\mathbf w \leftarrow \mathbf w+\eta . y_i\mathbf x_i \\ \mathbf{b} \leftarrow \mathbf{b}+\eta . y_i$
其中 $\eta \in (0,1]$ 是学习率。通过迭代可以使得损失函数 $L(\mathbf w,\mathbf{b})$ 不断减小直到 0。