神经网络-全连接层（2）

最新推荐文章于 2024-05-19 11:21:31 发布

chongliu8814

最新推荐文章于 2024-05-19 11:21:31 发布

阅读量559

点赞数

文章标签：人工智能

原文链接：https://my.oschina.net/u/4068302/blog/3020776

版权

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

这一回聊一下神经网络的反向传导算法问题。反向传导算法是一个比较复杂的算法，但是如果把它拆解开，其实每一个小步骤并不复杂。

在此之前需要先介绍一个概念，那就是模型训练目标。神经网络是一个用在监督学习上的模型，所谓的监督学习就是我们要提前知道输入和输出。那么我们的模型训练目标自然是希望模型在接收输入后，可以得到和我们提前知道的一样的输出。

但是怎么描述这个“一样”呢？现实中会有很多具体的表述方法。这里我们介绍并采用一种相对简单的方式，那就是二次损失函数。对于模型的输出y，和我们提前知道的理论输出t，有：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

定义一个双层神经网络

1. 输入的数据是2维

2. 第一层神经网络的输入也是2维，输出是4维，非线性部分采用sigmoid函数

3. 第二层神经网络的输入也是4维，输出是1维，非线性部分采用sigmoid函数

下面的时间请大家想象这个神经网络……

不用想了，画了个比较丑的……

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

链式求导

下面的时间我们来推导神经网络的优化公式。推导公式本身不需要太多的数学知识，但是需要一些耐心，我们首先解决一个数据的推导，然后扩展到一批（batch）数据上。

我们的目标函数是这个损失函数Loss，优化方法还是之前提到的梯度下降法，那么我们就需要求出每一个参数的梯度，也就是：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

如果我们能求出上面的17个梯度，后面我们就可以用负梯度乘以步长进行优化迭代了，说实话，直接求解这些确实有点难，这时候微分世界的一大神器就来了，那就是链式求导。我们把数据传递的过程再详细描述一下：

1. 输入数据

2. 第一层的线性部分输出

3. 第一层的非线性部分输出

4. 第二层的线性部分输出

5. 第二层的非线性部分输出y

6. 二次损失函数Loss

下面就按照这个顺序分步求导，对于上面的六个变量和模型的参数，我们根据每个分布的公式求出每个变量最近的输出的导数：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

到这歇一下，我们已经顺利求出第二层的所有参数的导数了，具体的求导过程在这就不说了。下面是第一层

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

看着十分复杂是吧？可是实际上其中每一个部分都已经被我们计算了，我们只需要把数据全部代入就可以了。当然，实际上如果严格按照公式进行计算，梯度的公式会比这个更复杂，但是其中一部分梯度实际上等于0，所以在此略去。

而且，随着我们从高层网络向低层计算的过程中，很多中间结果可以用于计算高层参数的梯度了。所以经过整理，全部的计算过程可以如下表示：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

以上就是计算的全过程了，经过了这个过程，我们确实做到了导数的求解，虽然有些繁琐，但是是不是看上去没那么复杂了？

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

反向传导的抽象

上面的8个步骤我们呢可以分成2部分：1-4步实际上完成了第2层神经网络的梯度计算，5-8步实际上完成了第1层神经网络的梯度计算。抽象地分析，可以得出：

1. Loss对本层非线性部分的梯度

2. Loss对本层线性部分的梯度

3. Loss对本层线性部分w的梯度

4. Loss对本层线性部分b的梯度

如果每一个高层把下面一层的输出梯度计算好传递过去，那么我们就可以把每一层抽象出来，各自完成各自的计算即可，层与层之间的计算可以做到"完全独立"，虽然它们是连在一起的。

解决了上面的问题，我们还不能马上写出代码，因为训练过程中真正的代码比上面的内容还要复杂一些。下一回我们来看看全连接层代码该怎么写。

转载于:https://my.oschina.net/u/4068302/blog/3020776

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络-全连接层（2）

这一回聊一下神经网络的反向传导算法问题。反向传导算法是一个比较复杂的算法，但是如果把它拆解开，其实每一个小步骤并不复杂。在此之前需要先介绍一个概念，那就是模型训练目标。神经网络是一个用在监督学习上的模型，所谓的监督学习就是我们要提前知道输入和输出。那么我们的模型训练目标自然是希望模型在...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。