神经网络详细解释（包含BP算法的推导）

最新推荐文章于 2022-10-22 19:10:52 发布

lhz泽少

最新推荐文章于 2022-10-22 19:10:52 发布

阅读量1.3k

点赞数 6

文章标签：神经网络算法人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/li15006474642/article/details/104407474

版权

本文详细介绍了神经网络的基础，包括单层神经网络结构、激活函数的作用，以及反向传播（BP算法）的推导。重点讨论了激活函数的选择及其重要性，以及在多层神经网络中隐含层的作用。通过举例展示了逻辑回归与单层神经网络的关系，并讲解了交叉熵损失函数。最后，提到了循环神经网络（RNN）、梯度消失与梯度爆炸问题，以及LSTM和GRU在解决这些问题上的改进。

摘要由CSDN通过智能技术生成

文章目录

神经网络是在人工智能界是比较流行的一种模型。发展到今日已经有很多变种，想cnn，rnn，LSTM，对抗神经网络，等等很多网络结构，网上也有很多比较详细的解释，最近系统的学习了一下神经网络，包括网络结构细节，激活函数，正向传播，反向传播的推导，梯度的计算，过拟合的解决方式等等，想要系统的学习神经网络的同学看过来吧。嘿嘿！

单层神经网络结构

先从最简单的开始理解神经网络，如图（1），这是一个最简单的神经网络结构
在这里插入图片描述
输入为：x1，x2，….xn。每个输入都对应一个权重w，那么将数据集x输入到神经元里面会有什么操作呢？如图（2）

数据X输入到神经元后会经过两个操作：“a(x)”,和”h(x)” 后才能输出到下一个神经元中。我们也把a(x)称为pre-activation，h(x)称为post-activation，也就是第一步和第二步的意思。我们先看第一步a（x），a(x)是指对利用权重对数据进行一次线性转换，如公式（1）
在这里插入图片描述
简单来说就是将输入集<x1,x2,…xn>乘以对应权重<w1,w2…wn>加上一个偏置。
第二步h（x）是指的对a（x）进行一次非线性的转换，如公式（2）

g(x)指的是激活函数，也就是对数据进行非线性转换的函数。如tanh，sigmold，relu等

那么问题来了，为什么要进行非线性的转换？

假设我们去掉h(x)这一步，每个神经元只经过a（x）也就是只有线性转换，那么我们的数据从第一个神经元到下一个神经元的过程就是 $a_{1}\left( a\left( x\right) \right) =w^{T}_{1}\left( a\left( x\right) \right) +b_{1}$ 再到下一个神经元为： $a_{2}\left(a_{1}\left( a\left( x\right) \right) \right )=W^{T}_{2}a_{1}\left( a\left( x\right) \right) +b_{2}$

假定到此结束准备输出，我们展开公式：
$a_{2}\left(a_{1}\left( a\left( x\right) \right) \right )=W^{T}_{2}a_{1}\left( a\left( x\right) \right) +b_{2}=W^{T}_{2}\left( W^{T}_{1}a\left( x\right) +b_{1}\right) +b_{2}=W^{T}_{2}\left( W^{T}_{1}\left(W^{T}X+b\right) +b_{1}\right) +b_{2}=W^{T}_{2}W^{T}_{1}W^{T}X+W^{T}_{2}W^{T}_{1}b+W^{T}_{2}b_{1}+b_{2}$

由于W和b是常数，因此 $W^{T}_{2}W^{T}_{1}W^{T}X$ 可以写成 $W^{T}_{c}X$ ，还有 $W^{T}_{2}W^{T}_{1}b+W^{T}_{2}b_{1}+b_{2}$ 可以写成 $b_{c}$ 这样公式就可以写成:
$a_{2}\left(a_{1}\left( a\left( x\right) \right) \right )=W^{T}_{c}X +b_{c}$

这样大家就会发现我们加这么多层神经元是没有意义的，最后还是变成一层的样子，所以我们在a(x)后加了非线性转换h(x)这样保证每层都是有意义的。因此激活函数比较的选择也是比较重要的

有意思的现象

如图（3）当单层神经网络，只有一个神经元并且激活函数是sigmold时，是此时 $a(x) =W^{T}X+b$ ，
$g\left( x\right) =\dfrac {1}{1+e^{-x}}$
那么此时：
$输出=h\left( x\right)=g\left( w^{T}x+b\right)=\dfrac {1}{1+e^{-(w^{T}x+b)}}$

而逻辑回归为：
$p(y|x)=\dfrac {1}{1+e^{-(w^{T}x+b)}}$

所以说逻辑回归是神经网络的一个特例
在这里插入图片描述

常见的激活函数：

Linear activation（线性激活函数）

在这里插入图片描述
公式： $g\left( a\right) =a$

直接输出，没有任何意义，没有边界，输出多层相当于一层
Sigmold函数：
在这里插入图片描述
公式： $g\left( a\right) =\dfrac {1}{1+e^{-a}}$

将输入映射到(0,1)之间严格递增的函数

Tanh函数:：
在这里插入图片描述
公式： $y\left( a\right) =\tanh \left( a\right) =\dfrac {e^{a}-e^{-a}}{e^{a}+e^{-a}}$

将输入映射到(1,-1)之间严格递增的函数

Relu：
公式： $g\left( a\right) =ReLu\left( a\right) =\max \left( 0,a\right)$

当a小于0时强制转换为0，严格递增的函数无上限

隐含层的神经网络结构

上面讲的是只有一层直接输出的单层神经网络，下面说一下带有隐含层的神经网络，如图（4）
在这里插入图片描述
图（4）隐含层的网络结构
每一节点的细节都可以表示成图（5）

$a\left( x\right)^{(i)}$ 表示第 $i$ 层神经元的pre-activation

$a\left( x\right)^{(i)}=<a\left( x_1\right)^{(i)},a\left( x_2\right)^{(i)},a\left( x_3\right)^{(i)}...a\left( x_n\right)^{(i)}>$

$h\left( x\right)^{(i)}$ 表示第 $j$ 层神经元的post-activation

$h\left( x\right)^{(i)}=<h\left( x_1\right)^{(i)},h\left( x_2\right)^{(i)},h\left( x_3\right)^{(i)}...h\left( x_n\right)^{(i)}>$

$W^{(i)}$ 表示第 $j$ 层神经元的权重

$W^{(i)}=<w^{(i)}_1,w^{(i)}_2,w^{(i)}_3,w^{(i)}_4... ,w^{(i)}_n,>$

第一层可以表示成：

$a\left( x\right) ^{\left( 1\right) }=W^{\left( 1\right) ^{T}}X+b^{(1)}$

$h\left( x\right)^{(1)}=g(a\left( x\right) ^{\left( 1\right) })$

由第一层输入到第二层可以表示成：

$a\left( x\right) ^{\left( 2\right) }=W^{\left( 1\right) ^{T}}h\left( x\right)^{(2)}+b^{(2)}$

$h\left( x\right)^{(2)}=g(a\left( x\right) ^{\left( 2\right) })$

因此第k层可以表示成：

$a\left( x\right) ^{\left( k\right) }=W^{k}h(x)^{k-1}+b^{(k)}$

$h\left( x\right)^{(k)}=g(a\left( x\right) ^{\left( k\right) })$

输出层的激活函数一般设置为softmax也就是 $g\left( x\right)=\sigma (x)$ 若在第l层输出

$a\left( x\right) ^{\left( l\right) }=W^{l}h(x)^{l-1}+b^{(l)}$

$h\left( x\right)^{(l)}=g(a\left( x\right) ^{\left( l\right) })=\sigma(a\left( x\right) ^{\left( l\right) })$

通常为了区分最后一层的激活函数与其他层不同，我们也常常设置 $f(x)=h\left( x\right)^{(l)}$

根据上面的步骤一直计算，直到最后一层输出 $f (x)$ 也就是完成了神经网络的正向传播

反向传播

假设数据标签为 $y$ 下一步我们要计算 $y$ 与 $f (x)$ 之间的差距，差距越小说明我们的模型越优秀，所以反向传播的目的就是不断减小 $y$ 与 $f (x)$ 之间的差距。所以神经网络的目标函数为公式：
$argmin:\dfrac {1}{T}\sum _{\ast }\varphi( f\left( x^{(t)};{\theta }\right) ,y^{(t)})+\lambda \Omega\left( \theta \right)$
$\theta$ 表示神经网络的所以参数：