机器学习基础---神经网络---全连接网络及BP算法

最新推荐文章于 2023-09-23 23:14:27 发布

Guanxiong He

最新推荐文章于 2023-09-23 23:14:27 发布

阅读量962

点赞数

分类专栏：机器学习基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jkgghvfuj/article/details/121310417

版权

反向传播 BP神经网络多层感知机激活函数损失函数

关键词由CSDN通过智能技术生成

机器学习基础专栏收录该内容

20 篇文章 5 订阅

订阅专栏

BP神经网络

方法描述

方法思想：

使用复合函数 $f(x)=f^m(f^{(m-1)}(...f^1(x)))$ 拟合输入样本集 $X$ 到标签集 $Y$ 之间的映射
针对一个样本 $x_i$ 进行计算的过程是正向的，从 $f^1(x)$ 到 $f^m(x)$ 一步步计算，称作正向传播
优化复合函数，即调整每一层函数参数以使得预测结果偏差最小的过程中，需要从结果的误差出发，向前传递误差，进而修改参数，此为反向传播（BP）

相关概念

感知机

在这里插入图片描述

如上图所示，每个圆代表一个神经元，对来自其他神经元的信号输入 $x=[x_1,x_2,...,x_k]$

经过神经元处理 $f=\sum_{i=1}^kw_ix_i+bias$ 得到 $f$ ，类似于神经元细胞对来自其他神经元细胞的传递的刺激脉冲的累加

再对使用阶跃函数处理 $f$ ，即根据累加脉冲是否达到阈值判断神经元是否有输出

事实上，感知机是一个线性二分类模型，也可以表示为 $f(x)=sign(w^Tx+b)$ ，与寻找超平面将线性可分样本分开等价

多层感知机（全连接神经网络）

全连接神经网络，可以视作是由多个感知机构成的

中间层称作隐藏层，可以有多个
激活函数
- 神经元累加脉冲的步骤可以用矩阵乘 $W \cdot x$ 表示，将多层直接联系起来有 $f(x)=W_mW_{m-1}...W_1x$ ，其仍然是一个仿射变换
- 因此为了实现对非线性映射的拟合，可以选择在每一层输出处引入一个非线性变换，即激活函数
- 常用的激活函数有：
  - Relu
    $Relu(x)=\begin{cases} 0 \ \ \ \ \ \ \ x\leq0\\ x \ \ \ \ \ \ \ x>0 \end{cases}$
  - sigmoid函数
    $sigmoid(x)=\frac1{1+e^{-x}}$
  - tanh函数
    $tanh(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$

方法推导

反向传播
如图，是 $l$ 层全连接网络

在这里插入图片描述

令：第 $l - 1$ 层与第 $l$ 层之间的权重向量为 $w^l$ ，偏置向量为 $b^l$ ，第 $l$ 层未激活的累加信号向量 $Z^l$ ，第 $l$ 层激活后的累加信号向量 $\alpha^l$

前向传播的过程可以用迭代的方式表示为：
$\alpha^l=\sigma(Z^l)=\sigma(W^l\alpha^{l-1}+b^l) \ \ \ \ \ \ (l=2,3,...,L)\\ \alpha^1=x$

定义损失函数为平方损失函数：
$J(W,b,x,y)=\frac12||\alpha^L-y||_2^2=\frac12||\sigma(W^L\alpha^{L-1}+b^L)-y||^2$
求解损失函数梯度：
$\begin{aligned} &\frac{\partial J(W,b,x,y)}{\partial{W^L}}=[(\alpha^L-y)·\sigma'(Z^L)](\alpha^{L-1})^T\\ &\frac{\partial J(W,b,x,y)}{\partial{b^L}}=(\alpha^L-y)·\sigma'(Z^L)\\ &\frac{\partial J(W,b,x,y)}{\partial{Z^L}}=(\alpha^L-y)·\sigma'(Z^L)\\ \end{aligned} 此处(\alpha^L-y)·\sigma'(Z^L)为相应位置元素相乘$

$记：\delta^L=\frac{\partial J(W,b,x,y)}{\partial{Z^L}}=(\alpha^L-y)·\sigma'(Z^L)$
由 $Z^l=W^l\alpha^{l-1}+b^l$
$\begin{aligned} &\frac{\partial{J(W,b,x,y)}}{\partial{W^l}}=\frac{\partial J(W,b,x,y)}{\partial{Z^l}}\frac{\partial Z^l}{\partial{W^l}}=\delta^l(\alpha^{l-1})^T\\ &\frac{\partial{J(W,b,x,y)}}{\partial{b^l}}=\frac{\partial J(W,b,x,y)}{\partial{Z^l}}\frac{\partial Z^l} {\partial{b^l}}=\delta^l \end{aligned}$
由
$\delta^l=\frac{\partial J(W,b,x,y)}{\partial{Z^l}}=(\frac{\partial Z^{l+1}}{\partial{Z^l}})^T\delta^{l+1}$

$Z^{l+1}=W^{l+1}\alpha^l+b^{l+1}=W^{l+1}\sigma(Z^l)+b^{l+1}\\ \frac{\partial Z^{l+1}}{\partial{Z^l}}=W^{l+1}\sigma'(Z^l)$
即可以从第L层开始，计算 $\delta^L$ ，一层层向前计算 $\delta^l$ ，进而求得损失函数对第l层 $W^l$ 与 $b^l$ 的偏导

方法流程

初始化每一层 $W, b$
输入 $\alpha^1=x$
前向传播
$\alpha^{i,l}=\sigma(W^{l}\alpha^{i,l-1}+b^{l})$
计算：
$\delta^L=(\alpha^L-y)·\sigma'(Z^L)$
从 $l = L - 1$ 到 $l = 2$ ，反向逐层计算：
$\delta^{i,l}=W^{l+1}\delta^{i,l+1}·\sigma'(z^{i,l})$
更新：
$W^l=W^l-\eta\sum_{i=1}^m\delta^{i,l}(\alpha^{i,l-1})^T\\ b^l=b^l-\eta\sum_{i=1}^m\delta^{i,l}$
满足误差条件后结束，否则返回第三步
得到所有的 $W, b$ ，对新样本前向传播求解

参考资料

【1】[神经网络反向传播矩阵求导][https://zhuanlan.zhihu.com/p/83859554?from_voters_page=true]

【2】[矩阵求导术（上）][https://zhuanlan.zhihu.com/p/24709748]

【3】[BP算法的矩阵推导][https://blog.csdn.net/qq_35269774/article/details/88585053]

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础---神经网络---全连接网络及BP算法

BP神经网络方法描述方法思想：使用复合函数f(x)=fm(f(m−1)(...f1(x)))f(x)=f^m(f^{(m-1)}(...f^1(x)))f(x)=fm(f(m−1)(...f1(x)))拟合输入样本集XXX到标签集YYY之间的映射针对一个样本xix_ixi进行计算的过程是正向的，从f1(x)f^1(x)f1(x)到fm(x)f^m(x)fm(x)一步步计算，称作正向传播优化复合函数，即调整每一层函数参数以使得预测结果偏差最小的过程中，需要从结果的误差出发，向前传递误差，进而修改
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。