感知机 — Perceptron_感知机的参数-CSDN博客

感知机是一种经典的神经网络算法，用于数据分类。其图形化展示如下图，相互连接的神经元 $j$ 和神经元 $k$ 做了放大处理，我们可以更清楚地了解感知机中每个神经元的计算逻辑。
这里写图片描述

其中，输入层 $x_1$ 和 $x_2$ 对应于一条有两个特征的数据，输出层 $y$ 表示这条数据的标签（类别）。对于神经元 $k$ ，接收它左侧三个神经元的输出，作为其输入。每一个输入配有一个权重 $w_{jk}$ ，因此，神经元 $k$ 接收的输入总和为 $z_k = \sum\limits_j w_{jk}a_j + b_k$ 。 $g_k(z)$ 是神经元 $k$ 的激活函数，其结果 $a_k$ 作为神经元 $k$ 的输出。即：
$a_k = g_k(\sum\limits_j w_{jk}a_j + b_k)$

常见的激活函数有：
这里写图片描述

学习策略

此处，我们以双输入单神经元感知机， $sgn\_func$ 作为激活函数为例开始讲解感知机的学习策略。如下图：
这里写图片描述

如上神经网络的输出定义为 $a = sgn(W^TX + b) = sgn(w_1x_1 + w_2x_2 + b)$ ，决策边界定义为 $z = W^TX + b = w_1x_1 + w_2x_2 + b = 0$ 。其图形化展示如下：
这里写图片描述

其中， $W$ 为决策边界 $W^TX + b = 0$ 的法向量，始终垂直于决策边界。

对于输入数据 $\{ x_1 = \begin{bmatrix} 1\\ 2 \end{bmatrix}, y_1 = 1\} \{ x_2 = \begin{bmatrix} -0.5\\ 2 \end{bmatrix}, y_2 = 0\} \{ x_3 = \begin{bmatrix} -0.5\\ -1 \end{bmatrix}, y_3 = 0\}$ ，下图中空心圆表示 $y_i = 0$ ，实心圆表示 $y_i = 1$ 。感知机的学习策略步骤如下：
这里写图片描述

令 $x_i^0 = 1$ 和 $w_0 = b$ ，我们随机初始化 $W$ 构建感知机模型 $l_0: W_0 X=0$ ；
在决策边界 $l_0$ 的分类下，发现 $x_1$ 被错误分类，即 $y = 1, a = 0$ 。因此，参数更新公式有 $W_1 = W_0 + x_1$ （新的参数向量 $W_1$ 使得新的决策边界 $l_1$ 向 $x_1$ 的方向旋转）；
在决策边界 $l_1$ 的分类下，发现 $x_2$ 被错误分类，即 $y = 0, a = 1$ 。因此，参数更新公式有 $W_2 = W_1 - x_2$ （新的参数向量 $W_2$ 使得新的决策边界 $l_2$ 向远离 $x_2$ 的方向旋转）；
在决策边界 $l_2$ 的分类下，发现 $x_1, x_2, x_3$ 均被正确分类，即 $y = 0, a = 0$ 或 $y = 1, a = 1$ 。因此，参数不再更新。

总结如上两种错误分类情况，即得统一的参数更新公式：
$W^{new} = W^{old} + (y-a)X$

此参数更新公式对于单隐层多神经元感知机同样适用，不过是 $W$ 由向量变成了矩阵。

感知机的收敛性

由于 $\in \{-1, 1\}$ ，可令 $+X^{\prime}(k)$ 。其中：
$X^{\prime}(k) \in \{ x_1, x_2, \dots, x_m, -x_1, -x_2, \dots, -x_m\}$

然后，我们假设感知机存在一个最终解 $W^{\star}$ ，使得：
${W^{\star}}^Tx_i \gt \delta \gt 0 \vert y=1 \\ {W^{\star}}^Tx_i \lt -\delta \lt 0 \vert y=0$

其中， $\delta$ 表示某可能很小的正数。结合 $X^{\prime}(k)$ 的定义，得 ${W^{\star}}^TX^{\prime}(k) \gt \delta$ 。

$\mathcal Proof:$

初始化感知机参数 $W (0)$ 为 $\mathbf 0$ ，经过 $k$ 次迭代后：
$X^{\prime}(0) + X^{\prime}(1) + X^{\prime}(2) + \dots + X^{\prime}(k-1) \\ {W^{\star}}^TW(K) = {W^{\star}}^TX^{\prime}(0) + {W^{\star}}^TX^{\prime}(1) + {W^{\star}}^TX^{\prime}(2) + \dots + {W^{\star}}^TX^{\prime}(k-1)$

由于 ${W^{\star}}^TX^{\prime}(k) \gt \delta$ ，得 ${W^{\star}}^TW(K) \gt k\delta$ 。
$({W^{\star}}^TW(K))^2 = (\Vert W^{\star} \Vert \Vert W(K) \Vert \cos\theta)^2 \le {\Vert W^{\star} \Vert}^2 {\Vert W(K) \Vert}^2 \\ {\Vert W(K) \Vert}^2 \ge \frac {({W^{\star}}^TW(K))^2}{{\Vert W^{\star} \Vert}^2} \gt \frac {(k\delta)^2}{{\Vert W^{\star} \Vert}^2}$

接下来计算 $\Vert W(K) \Vert$ 的上界：
$\begin{aligned} & {\Vert W(K) \Vert}^2 = W^T(K)W(K) \\ & = [W(K-1) + X^{\prime}(K-1)]^T[W(K-1) + X^{\prime}(K-1)] \\ & = W^T(K-1)W(K-1) + 2W^T(K-1)X^{\prime}(K-1) + {X^{\prime}}^T(K-1)X^{\prime}(K-1) \end{aligned}$

对于 $W (K - 1)$ ，决策边界仍处于更新状态中。因此，必有数据被错误分类。如果 $y = 1, a = 0$ ， $W^T(K-1)X^{\prime}(K-1) = W^T(K-1)X(K-1) \le 0$ ；如果 $y = 0, a = 1$ ， $W^T(K-1)X^{\prime}(K-1) = -W^T(K-1)X(K-1) \le 0$ （读者可以自行构建二维坐标系验证）。因此：
${\Vert W(K) \Vert}^2 \le \Vert W(K-1) \Vert^2 + \Vert X^{\prime}(K-1) \Vert^2$

重复迭代可得：
${\Vert W(K) \Vert}^2 \le \Vert X^{\prime}(0) \Vert^2 + \Vert X^{\prime}(1) \Vert^2 + \dots + \Vert X^{\prime}(K-1) \Vert^2$
令 $\Pi = \max(\Vert X^{\prime}(i) \Vert^2)$ ，得：
${\Vert W(K) \Vert}^2 \le k \Pi$

结合 ${\Vert W(K) \Vert}^2 \gt \frac {(k\delta)^2}{{\Vert W^{\star} \Vert}^2}$ ，得：
$\frac {(k\delta)^2}{{\Vert W^{\star} \Vert}^2} < {\Vert W(K) \Vert}^2 \le k \Pi \\ k < \frac {\Pi {\Vert W^{\star} \Vert}^2}{\delta^2}$
得证感知机的学习能在有限次数内完成。