深度学习笔记
怀逸%
计算机在读研究生
展开
-
BatchNorm原理解析
如果直接对每一层后进行归一化,会将每一层的输出数据都归一化到0均值和1方差,满足正态分布,但会导致每一层数据都是正态分布,导致其完全学不到输入数据的特征。专业术语,google小组在论文Batch Norm中提出,主要描述为:训练深度网络的时候经常发生训练困难的问题,因为每一次参数迭代更新后,上一层网络的输出数据经过这一层网络计算后,数据分布都会发生变化,为下一层网络的学习带来困难(训练的时候是这样的,但是测试的过程中,批次大小可能发生变化,会造成需要使用不同的λ和β。,显然会给网络训练带来困难。原创 2023-08-09 16:49:21 · 277 阅读 · 0 评论 -
如何理解神经网络学习到的是训练数据的分布?
总结:给一个学生一大堆积分求解的问题让他学习,不断纠正自己的错误,当他学完了之后也最多就是学会了这些题的解法(学到了训练集的分布)。只要保证新知识和学过的知识是同一回事(个体之间独立且同分布),那模型就可以用学过的套路取参加新知识的考试了,考试过程中的推理思路都可以套用学习过程中的思路(思路:模型推导过程)。什么是训练数据的分布呢?通俗一点来说,就是给你的这一大批训练数据,他总体是个什么样的、平均水平在哪里、最好的有多好、最差的有多差、每个个体离着这个平均水平分别能强多少、能弱多少、个体水平波动情况如何。原创 2023-08-09 16:38:45 · 278 阅读 · 0 评论