BP and hello world of deep learning

最新推荐文章于 2021-04-16 21:19:17 发布

futurewq

最新推荐文章于 2021-04-16 21:19:17 发布

阅读量137

点赞数

分类专栏： lihongyi

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangrongrongwq/article/details/92722398

版权

lihongyi 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

我们在计算参数时，使用梯度下降方法，为了很好的将梯度下降法应用到deep learning，我们使用反向传播算法。我们使用反向传播算法计算每个参数的更新量，然后使用梯度下降法更新参数值。

为了计算每个参数的更新量，我们需要计算每个参数的梯度，在求导数的时候，需要注意的是链式法则，如下图所示：

在计算损失函数时，我们每次只需要计算每个样本的损失函数，然后将这些样本的损失函数相加即可得到总的损失函数，在计算参数的梯度时，我们可以只计算每个样本对应的该参数的梯度，然后将所有样本的得到的梯度相加，即可得到该参数的梯度。如下图所示。

在反向传播算法中，我们将其分为两个部分，分别为前向传播和反向反馈。

前向传播梯度的计算结果如下图所示：

我们可以看到在前向传播中，参数的梯度就是其对应的输入。具体的，如下面的实例所示

接下来我们来分析反向反馈

要计算C对z的偏导，我们可以首先计算C对a的偏导，然后计算a对z的偏导，然后C对a的偏导又可以由其他式子表示，如果在a后面有其他神经元，那我们就需要一直迭代直到迭代到输出层，所以我们每次在反向反馈中，都是从输出层反向迭代，一直迭代我们当前计算的参数的偏导为止。在这里，我们假设已经到了输出层，则C对z的偏导如下图所示：

我们从下图看看，从输出层到参数之间的神经元是如何影响参数的值的。

我们看一个完整的图，看从输出层到当前参数，怎么迭代的计算参数的梯度值，如下图所示

利用简单的形式，展示这种迭代计算：

对反向传播算法进行总结，就是前向传播和反向传递的结果相乘，得到参数的梯度值

在keras的hello world中，有一个东西值得注意，就是mini-batch 和随机梯度下降。

mini-batch：在每次更新参数时都是选择一小批样本一起更新参数。对mini-batch的形象化解释如下图所示(要注意epoch和batch-size的关系)。

随机梯度下降:每次更新参数时都是选择一个样本更新参数。

mini-batch与随机梯度下降相比有如下优点：

1.mini-batch更加稳定，每次使用多个样本同时更新参数，减少了随机性，所以结果更加稳定。通常来说batch-size越来其结果越稳定，但是当batch-size太大时，可能导致很糟糕的结果。

2.mini-batch计算速度更快，因为每次选择多个样本依次更新参数，所以这些样本的计算可以使用矩阵操作，将这些样本组成一个矩阵，一次性计算完成。

mini-batch的矩阵操作和随机梯度下降的样本计算如下图所示

mini-batch也有一些缺点，当设置很大的batch-size时，可能导致很糟糕的结果，可能导致进入鞍点等点，从而难以得到参数的最优值。但是随机梯度下降不同，即使其进入鞍点等点，因为它每次只使用一个样本更新参数，所以有更大的随机性，在下次迭代的时候更大可能性可以从鞍点中跳出来。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BP and hello world of deep learning

我们在计算参数时，使用梯度下降方法，为了很好的将梯度下降法应用到deep learning，我们使用反向传播算法。我们使用反向传播算法计算每个参数的更新量，然后使用梯度下降法更新参数值。为了计算每个参数的更新量，我们需要计算每个参数的梯度，在求导数的时候，需要注意的是链式法则，如下图所示：在计算损失函数时，我们每次只需要计算每个样本的损失函数，然后将这些样本的损失函数相加即可得到总的损...
复制链接

扫一扫

专栏目录

futurewq CSDN认证博客专家 CSDN认证企业博客

码龄9年

146: 原创

3万+: 周排名

150万+: 总排名

18万+: 访问

: 等级

2449: 积分

576: 粉丝

72: 获赞

20: 评论

453: 收藏

私信

关注

热门文章

分类专栏

面试 27篇
elasticsearch 1篇
redis 1篇
hadoop 5篇
python 21篇
machine learning competition 7篇
machine learning 13篇
statistics 4篇
AI 20篇
Algorithm 4篇
lihongyi 8篇
opencv 4篇
leedcode 50篇

最新评论

检测com类中CLSID为{F9364159-6AED-4F9C-8BAF-D7C7ED6160A8}的组件时失败，错误80040154
BAAAM_: 没装瑞浪报表
S^3-Rec:self-supervised learning for sequential recommendation with mutual information maximization
futurewq: 数据集的
S^3-Rec:self-supervised learning for sequential recommendation with mutual information maximization
y16639383292: 实验5.3.3验证数据稀缺性，用完整数据集的20%，40%，60%是数据集所有项目的20%，40%，60%还是每个用户交互的序列长度的20%，40%，60%，还是什么呐
GBDT精讲
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616689996?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
XGB算法梳理
xiaotian127: 厉害，写的很详细，尤其是节点划分时的分数的选择，介绍的很清晰，感谢大佬的分享

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。