感知机与BP神经网络详细推导

最新推荐文章于 2022-12-22 18:29:33 发布

一只干巴巴的海绵

最新推荐文章于 2022-12-22 18:29:33 发布

阅读量416

点赞数

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/Hanx09/article/details/105318718

版权

机器学习同时被 2 个专栏收录

26 篇文章 2 订阅

订阅专栏

深度学习

10 篇文章 0 订阅

订阅专栏

文章目录

神经元

MP神经元模型
M-P神经元模型中，神经元接收到来自 $n$ 个其他蛇精原传递过来的输入信号 $x_1,...,x_n$ ，这些输入信号通过带权重的连接 $w\cdot x$ 进行传递，神经元接收到的总输入值将与神经元的阈值进行比较 $w\cdot x-\theta$ ，然后通过激活函数 $f(\cdot)$ 处理以产生神经元的输出。

把许多个这样的神经元按一定的层次结构连接起来，就得到了神经网络。

常见的激活函数

Sigmoid函数：
$f(x)=\frac{1}{1+e^{-x}}$

Sigmoid函数是一条平滑的曲线，可以返回0到1的任意数：输入较小时，输出接近0，随着输入的增大，输出向1靠近。

Sign函数（阶跃函数）：
$f(x)=\begin{cases}0,\quad x\leq0\\ 1,\quad x>0\end{cases}$

Sign函数在0处有突变，只能返回0和1.

ReLU函数
$f(x)=\begin{cases}0,\quad x\leq0\\ x,\quad x>0\end{cases}$

输出层激活函数

回归问题：恒等函数
分类问题：Softmax函数
$y_k=\frac{e^{x_k}}{\sum_{i=1}^ne^{x_i}}$

感知机

感知机是一种二类分类的线性分类模型，对应于输入空间中将训练数据进行线性划分的分离超平面。感知机属于判别模型。

假设输入空间（特征空间）是 $\mathcal{X}\subseteq \mathbb{R}^n$ ，输出空间是 $\mathcal{Y}=\{+1,-1\}$ 。输入 $x\in\mathcal{X}$ 表示实例的特征向量，输出 $y\in\mathcal{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数：
$f(x)=sign(w\cdot x+b)$
称为感知机。其中 $w$ 和 $b$ 为感知机模型参数， $w\in\mathbb{R}^n$ 叫作权值或权值向量， $b\in\mathbb{R}$ 叫作偏置， $w\cdot x$ 表示 $w$ 和 $x$ 的内积。

感知机模型的假设空间是定义在特征空间中的所有线性分类模型，即函数集合 $\{f|f(x)=w\cdot x+b\}$ 。

感知机的几何解释：线性方程 $w\cdot x+b=0$ 对应于特征空间 $\mathbb{R}^n$ 中的一个超平面 $S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。超平面 $S$ 将特征空间划分为两个部分，位于两部分的点分别被分为正、负两类，所以，超平面 $S$ 称为分离超平面。

分离超平面

感知机学习

给定线性可分的训练数据集
$T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$
其中， $x_i\in\mathcal{X}=\mathbb{R}^n$ ， $y_i\in\mathcal{Y}=\{+1,-1\}$ ， $i = 1, 2, . . ., n$ ，现要求参数 $w$ 和 $b$ 以学得感知机模型
$f(x)=sign(w\cdot x+b)$

感知机模型的学习策略是，定义一个误分类损失函数，然后极小化这个损失函数。

损失函数

误分类点的总数：不是参数 $w$ 、 $b$ 的连续可导函数，不易优化。
误分类点到超平面 $S$ 的总距离：

输入空间 $\mathcal{X}=\mathbb{R}^n$ 中任一点 $x_0$ 到超平面 $S$ 的距离： $\frac{1}{||w||}|w\cdot x_0+b|$ ， $∣ ∣ w ∣ ∣$ 是 $w$ 的 $L_2$ 范数；

对于误分类的数据 $x_i,y_i)$ ， $y_i$ 与 $w\cdot x_i+b$ 异号，即有 $-y_i(w\cdot x_i+b)>0$ ；

所以，误分类点 $x_i$ 到超平面 $S$ 的距离： $-\frac{1}{||w||}y_i(w\cdot x_i+b)$ 。假设超平面 $S$ 的误分类点集合为 $M$ ，则所有误分类点到超平面 $S$ 的总距离： $-\frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i+b)$ 。定义感知机学习的损失函数为：
$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$

损失函数 $L (w, b)$ 是非负的，如果没有误分类点，损失函数值是0，误分类点越少，误分类点离超平面越近，损失函数值就越小。
一个特定样本的损失函数：在误分类时时参数 $w$ 、 $b$ 的线性函数，在正确分类时是0.因此，给定训练集 $T$ ，损失函数 $L (w, b)$ 是 $w$ 、 $b$ 的连续可导函数。

感知机学习算法

感知机学习问题转化为优化问题：
$\min_{w,b} L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$
其中， $M$ 为误分类点的集合。

采用随机梯度下降法求解上述优化问题：随机选取一个误分类点使梯度下降。
假设分类点集合 $M$ 固定，损失函数 $L (w, b)$ 的梯度：
$\nabla_w L(w,b)=-\sum_{x_i\in M}y_ix_i,\quad \nabla_b L(w,b)=-\sum_{x_i\in M}y_i$
随机选取一个误分类点 $x_i,y_i)$ ，对 $w$ 、 $b$ 进行更新：
$\begin{cases} w\leftarrow w+\eta y_ix_i\\ b\leftarrow b+\eta y_i \end{cases}$
式中 $\eta(0<\eta\leq1)$ 是步长，又称学习率。

感知机学习算法原始形式
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ ，其中， $x_i\in\mathcal{X}=\mathbb{R}^n$ ， $y_i\in\mathcal{Y}=\{+1,-1\}$ ， $i = 1, 2, . . ., n$ ；学习率 $\eta(0<\eta\leq1)$ ；
输出： $w, b$ ，感知机模型 $f(x)=sign(w\cdot x+b)$

选取初值 $w_0,b_0$
在训练数据集中选取数据 $x_i,y_i)$
如果 $y_i(w\cdot x+b)\leq0$
$\begin{cases} w\leftarrow w+\eta y_ix_i\\ b\leftarrow b+\eta y_i \end{cases}$
转至2，直至训练集中没有误分类点

对于线性可分数据集感知机学习算法原始形式是收敛的，即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。

感知机学习算法对偶形式中，可假设初始值 $w_0,b_0$ 均为0，对误分类点 $x_i,y_i)$ 通过
$\begin{cases} w\leftarrow w+\eta y_ix_i\\ b\leftarrow b+\eta y_i \end{cases}$
逐步修改 $w, b$ ，设修改 $n_i$ 次，则 $w, b$ 关于 $x_i,y_i)$ 的增量分别是 $n_i\eta y_ix_i=\alpha_iy_ix_i$ 和 $n_i\eta y_i=\alpha_iy_i$ ，这样最后学到的 $w, b$ 分别表示为
$\begin{cases} w=\sum_{j=1}^n \alpha_i y_ix_i \\ b=\sum_{j=1}^n \alpha_i y_i \end{cases}$
当 $\eta=1$ 时， $\alpha_i=n_i$ 表示第 $i$ 个实例点由于误分类而进行更新的次数。实例点更新次数越多，意味着它据超平面越近，越难正确分类。

感知机学习算法对偶形式
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ ，其中， $x_i\in\mathcal{X}=\mathbb{R}^n$ ， $y_i\in\mathcal{Y}=\{+1,-1\}$ ， $i = 1, 2, . . ., n$ ；学习率 $\eta(0<\eta\leq1)$ ；
输出： $\alpha,b$ ，感知机模型 $f(x)=sign(\sum_{j=1}^n\alpha_jy_j\cdot x+b)$ ，其中 $\alpha=(\alpha_1,\alpha_2,...,\alpha_n)^T$

$\alpha\leftarrow 0, b\leftarrow 0$
在训练数据集中选取数据 $x_i,y_i)$
如果 $y_i(\sum_{j=1}^n\alpha_jy_j\cdot x+b)\leq0$
$\begin{cases} \alpha_i\leftarrow \alpha_i+\eta\\ b\leftarrow b+\eta y_i \end{cases}$
转至2，直至训练集中没有误分类点

对偶形式中训练实例仅以内积形式出现，为了方便，可以预先将训练集中实例见的内积计算出来并以矩阵的形式存储，该矩阵即为Gram矩阵
$G=[x_i\cdot x_j]_{n\times n}$

感知机拓扑结构

感知机由两层神经元组成，输入层接收外界输入信号后传递给输出层，输出层是M-P神经元，激活函数采用阶跃函数。

感知机可以求解线性可分的“与”问题、“或”问题和“非”问题，但是不能求解非线性可分问题，甚至是“异或”这样简单的非线性可分问题。要解决非线性可分问题，需考虑使用多层功能神经元。

“与”问题： $w_1=w_2=0,\theta=2$ ，则 $y=f(1\cdot x_1+1\cdot x_1-2)$ 仅在 $x_1=x_2=1$ 时， $y = 1$ ；
“或”问题： $w_1=w_2=0,\theta=0.5$ ，则 $y=f(1\cdot x_1+1\cdot x_1-0.5)$ 在 $x_1=1$ 或 $x_2=1$ 时， $y = 1$ ；
“非”问题： $w_1=-0.6，w_2=0,\theta=-0.5$ ，则 $y=f(-0.6\cdot x_1+0\cdot x_1+0.5)$ 在 $x_1=1$ 时， $y = 0$ ，在 $x_1=0$ 时， $y = 1$ 。

多层前馈神经网络

多层前馈神经网络（multi-layer feedforward neural networks）由多层神经元构成，每层神经元与下一层神经元互连，神经元之间不存在同层连接，也不存在跨层连接。输入层与输出层之间的神经元层称之为隐含层（hidden layer），输入层神经元接收外界输入，隐含层与输出层神经元对输入进行加工，最终结果由输出层神经元输出，也就是说，输入层神经元仅是接收输入，不进行函数处理，隐含层与输出层包含功能神经元。
多层前馈神经网络

“前馈”并不意味着信号不能向后传，而是指网络拓扑结构上不存在环或回路。

神经网络的学习：误差逆传播算法（BP算法）

神经网络的学习过程，就是根据训练数据来调整神经元之间的“连接权”及每个功能神经元的阈值。
误差逆传播（error BackPropagation）算法是优秀的神经网络学习算法，它不仅可用于多层前馈神经网络的学习，还可用于学习其他类型的神经网络（如递归神经网络），通常说的“BP神经网络”一般是指用BP算法训练的多层前馈神经网络。

给定训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ 其中， $x_i\in\mathbb{R}^d$ ， $y_i\in\mathcal{R}^l$ 。下图给出一个具有 $d$ 个输入神经元、 $l$ 个输出神经元、 $q$ 个隐层神经元的多层前馈网络结构。

$\theta_j$ ：输出层第 $j$ 个神经元的阈值；
$\gamma_h$ ：隐层第 $h$ 个神经元的阈值；
$v_{ih}$ ：输入层第 $i$ 个神经元与隐层第 $h$ 个神经元之间的连接权；
$w_{hj}$ ：隐层第 $h$ 个神经元与输出层第 $j$ 个神经元之间的连接权；
$\alpha_h=\sum_{i=1}^dv_{ih}x_i$ ：隐层第 $h$ 个神经元接收到的输入；
$b_h=f(\alpha_h-\gamma_h)$ ：隐层第 $h$ 个神经元的输出；
$\beta_j=\sum_{h=1}^qw_{hj}b_h$ ：输出层第 $j$ 个神经元接收到的输入。

假设隐层和输出层神经元都使用Sigmoid函数。

该网络中有 $(d + l + 1) q + l$ 个参数需学习：输入层到隐层的 $d\times q$ 个权值 $v_{ih}$ 、隐层到输出层的 $q\times l$ 个权值 $w_{hj}$ ， $q$ 个隐层神经元的阈值 $\gamma_h$ 、 $l$ 个输出层神经元的阈值 $\theta_j$ 。

BP是一个迭代学习算法，在迭代的每一轮中，任意参数 $v$ 的更新估计式为：
$v\leftarrow v+\Delta v$

标准BP算法

对训练数据 $x_k,y_k)$ ，假定神经网络的输出为 $\hat{y}_k=(\hat{y}_1^k,\hat{y}_2^k,...,\hat{y}_l^k)$ ，即
$\hat{y}_j^k=f(\beta_j-\theta_j)$
则网络在 $x_k,y_k)$ 上的均方误差为
$E_k=\frac{1}{2}\sum_{j=1}^l(\hat{y}_j^k-y_j^k)^2$

BP算法的目标是最小化训练集 $T$ 上的累积误差
$E=\frac{1}{m}E_k$

标准BP算法每次针对一个训练样本更新连接权和阈值，基于梯度下降策略，沿 $E_k$ 的负梯度方向对参数进行调整。对误差 $E_k$ ，给定学习率 $\eta$ ，有
$\begin{cases} w_{hj}\leftarrow w_{hj}+\Delta w_{hj}=w_{hj}- \eta \frac{\partial E_k}{\partial w_{hj}}\\ \theta_j\leftarrow \theta_j+\Delta \theta_j=\theta_j - \eta \frac{\partial E_k}{\partial \theta_j}\\ v_{ih}\leftarrow v_{ih}+\Delta v_{ih}= v_{ih} - \eta \frac{\partial E_k}{\partial v_{ih}}\\ \gamma_h\leftarrow \gamma_h+\Delta \gamma_h= \gamma_h- \eta \frac{\partial E_k}{\partial \gamma_h} \end{cases}$

关于 $w_{hj}$ 的梯度，
$\begin{aligned} \frac{\partial E_k}{\partial w_{hj}}&=\frac{\partial E_k}{\partial \hat{y}_j^k}\cdot \frac{\partial \hat{y}_j^k}{\partial \beta_j}\cdot \frac{\partial \beta_j}{\partial w_{hj}}\\ &=(\hat{y}_j^k-y_j^k)\cdot f(\beta_j-\theta_j)(1-f(\beta_j-\theta_j))\cdot b_h\\ &=(\hat{y}_j^k-y_j^k)\hat{y}_j^k(1-\hat{y}_j^k)b_h \end{aligned}$
令 $g_j=-\frac{\partial E_k}{\partial \beta_j}=-\frac{\partial E_k}{\partial \hat{y}_j^k}\cdot \frac{\partial \hat{y}_j^k}{\partial \beta_j}=\hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)$
则
$\Delta w_{hj}=\eta g_j b_h$

关于 $\theta_j$ 的梯度，
$\frac{\partial E_k}{\partial \theta_j}=\frac{\partial E_k}{\partial \hat{y}_j^k}\cdot \frac{\partial \hat{y}_j^k}{\partial \theta_j}=\hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)$

$\Delta \theta_j=-\eta g_j$

关于 $v_{ih}$ 的梯度，
$\begin{aligned} \frac{\partial E_k}{\partial v_{ih}}&=\sum_{j=1}^l\frac{\partial E_k}{\partial \beta_j}\cdot \frac{\partial \beta_j}{\partial b_h}\cdot \frac{\partial b_h}{\partial \alpha_h} \cdot \frac{\partial \alpha_h}{\partial v_{ih}}\\ &=\sum_{j=1}^l(-g_j)\cdot w_{hj}\cdot b_h(1-b_h)\cdot x_i \end{aligned}$

令
$e_h=-\frac{\partial E_k}{\partial b_h}\cdot \frac{\partial b_h}{\partial \alpha_h}=b_h(1-b_h)\sum_{j=1}^lw_{hj}g_j$

则
$\Delta v_{ih}=\eta e_h x_i$

对 $\gamma_h$ 求梯度，
$\begin{aligned} \frac{\partial E_k}{\partial v_{ih}}&=\sum_{j=1}^l\frac{\partial E_k}{\partial \beta_j}\cdot \frac{\partial \beta_j}{\partial b_h}\cdot \frac{\partial b_h}{\partial \gamma_h} \\ &=\sum_{j=1}^l(-g_j)\cdot w_{hj}\cdot (-b_h(1-b_h)) \end{aligned}$

$\Delta \gamma_h=-\eta e_h$

BP算法流程
输入：训练数据集 $T=\{(x_k,y_k)\}_{k=1}^m$ ，学习率 $\eta$
输出：连接权和阈值确定的多层前馈神经网络

在 $(0, 1)$ 范围内随机初始化网络中所有连接权和阈值；
重复以下步骤直至达到停止条件；
对任意 $(x_k,y_k)\in T$ ，
2.1 前向传播：将 $x_k,y_k)$ 提供给输入层神经元，根据当前参数逐层将信号前传，直至产生输出 $\hat{y}_k$ ；
2.2 反向传播：
计算输出层神经元的梯度项，
$g_j=\hat{y}_j^k(1-\hat{y}_j^k)(y_j^k-\hat{y}_j^k)$
计算隐层神经元的梯度项，
$e_h=b_h(1-b_h)\sum_{j=1}^lw_{hj}g_j$
更新连接权 $w_{hj}$ 、 $v_{ih}$ 和阈值 $\theta_j$ 、 $\gamma_h$ ，
$\begin{cases} w_{hj}\leftarrow w_{hj}+\Delta w_{hj}=w_{hj}+\eta g_j b_h\\ \theta_j\leftarrow \theta_j+\Delta \theta_j=\theta_j -\eta g_j\\ v_{ih}\leftarrow v_{ih}+\Delta v_{ih}= v_{ih} +\eta e_h x_i\\ \gamma_h\leftarrow \gamma_h+\Delta \gamma_h= \gamma_h-\eta e_h \end{cases}$

累积BP算法

类似于标准BP算法，沿累积误差 $E$ 的负梯度方向更新参数，就得到了累积误差逆传播算法。

一般来说，标准BP算法每次更新只针对单个样例，参数更新的非常频繁，而且不同样例的更新效果可能出现“抵消”现象，因此，为了达到累积BP算法同样的累积误差极小点，标准BP算法往往需要进行更多次数的迭代。累积BP算法直接针对累积误差极小化，它在读取整个训练集一遍后才对参数更新，其参数更新额频率低得多，但在很多任务重，累积误差下降到一定程度后，进一步下降会非常缓慢，这是标准BP往往会更快获得较好的解，油气是在训练集非常大时更明显。

BP网络的过拟合

Hornik证明了，只需一个包含足够多神经元的隐层，多层前馈网络就能以任意精度逼近任意复杂度的连续函数。但是，如何设置隐层神经元的个数仍是个未解决的问题，实际应用中常采用试错法调整。

正是其强大的表示能力，BP神经网络常会出现过拟合现象：训练误差持续降低，但测试误差却可能上升。有两种策略来缓解BP网络的过拟合：

早停：将数据分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值；
正则化：其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分，例如连接权与阈值的平方和，则误差目标函数变为：
$E=\lambda\frac{1}{m}\sum_{k=1}^mE_k+(1-\lambda)\sum_iw_i^2$
其中 $\lambda\in(0,1)$ 用于对经验误差和网络复杂度这两项进行折中，常通过交叉验证法来估计。

BP网络的全局极小

BP算法基于梯度下降策略进行参数寻优，容易陷入局部极小。常采用以下策略来试图跳出局部极小，从而进一步接近全局最小。

以多组不同参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数。
使用“模拟退火”技术：模拟退火在每一步都以一定的概率接受比当前解更差的结果，从而有助于跳出局部极小；另外，在每步迭代过程中，接受次优解的概率要随着时间的推移而逐渐减低，从而保证算法稳定。
使用随机梯度下降：随机梯度下降法计算梯度时加入了随机因素，因此，即便陷入局部极小点，它计算出的梯度仍可能不为0，这样就有机会跳出局部极小继续搜索。

注：上述方法都是启发式的，理论上尚缺乏保障。

参考：
统计学习方法——李航
西瓜书——周志华

一只干巴巴的海绵

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
感知机与BP神经网络详细推导

文章目录神经元常见的激活函数输出层激活函数感知机感知机学习损失函数感知机学习算法感知机拓扑结构多层前馈神经网络神经网络的学习：误差逆传播算法（BP算法）标准BP算法累积BP算法BP网络的过拟合BP网络的全局极小神经元 M-P神经元模型中，神经元接收到来自nnn个其他蛇精原传递过来的输入信号x1,...,xnx_1,...,x_nx1,...,xn，这些输入信号通过带权重的连接w⋅xw\...
复制链接

扫一扫

专栏目录