百度架构师手把手带你零基础实践深度学习学习笔记（一）

最新推荐文章于 2024-02-10 15:54:27 发布

m0_50102823

最新推荐文章于 2024-02-10 15:54:27 发布

阅读量1.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50102823/article/details/108015882

版权

本文探讨了深度学习中样本归一化的原理，解释为何使用训练样本的均值和极值进行归一化。此外，讨论了梯度为0可能的原因，指出这并不意味着训练完成。还分析了随机梯度下降中batchsize的选择及其对训练的影响，以及Python中yield的用法和模型编写的不同平台比较。

摘要由CSDN通过智能技术生成

百度架构师手把手带你零基础实践深度学习学习笔记（一）

在这里插入图片描述

样本归一化：预测时的样本数据同样也需要归一化，但使用训练样本的均值和极值计算，这是为什么？

当模型在训练阶段所接触到的参与训练的样本来自于训练集，而当模型投入使用时，模型会接触到的测试样本并不一定来自于划分好的测试集，而是从未接触过的样本。
因此将模型训练时视为只能接触到训练集样本，对训练样本做均值和极值计算来归一化，预测样本归一化时为了保证和训练样本保持一致的变换关系，才能进行准确的预测输出，因此使用训练样本的均值和极值计算。
由于预测样本不属于训练样本，预测样本以训练样本的参数进行归一化后有可能不在预计的归一化范围内。

当部分参数的梯度计算为0（接近0）时，可能是什么情况？是否意味着完成训练？

1.训练到达loss的极小值点或者变化平缓的点。
2.找到极小值点可能不是最小值点，或有多个点为最小值。
3.因此并不意味完成训练。
4.可能会受到初始w，b的影响。

随机梯度下降的batchsize设置成多少合适？过小有什么问题？过大有什么问题？提示：过大以整个样本集合为例，过小以单个样本为例来思考。

不考虑bn的情况下，batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。
对于一个大

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。