百度架构师手把手带你零基础实践深度学习 学习笔记(一)
-
-
- 样本归一化:预测时的样本数据同样也需要归一化,但使用训练样本的均值和极值计算,这是为什么?
- 当部分参数的梯度计算为0(接近0)时,可能是什么情况?是否意味着完成训练?
- 随机梯度下降的batchsize设置成多少合适?过小有什么问题?过大有什么问题?提示:过大以整个样本集合为例,过小以单个样本为例来思考。
- 一次训练使用的配置:5个epoch,1000个样本,batchsize=20,最内层循环执行多少轮?
- 梯度传播
- 在AI Studio上阅读房价预测案例(两个版本)的代码,并运行观察效果。
- 基于Python编写的模型和基于飞桨编写的模型在存在哪些异同?如程序结构,编写难易度,模型的预测效果,训练的耗时等等。
- python中yield的用法详解
- 扩展维度
-
样本归一化:预测时的样本数据同样也需要归一化,但使用训练样本的均值和极值计算,这是为什么?
当模型在训练阶段所接触到的参与训练的样本来自于训练集,而当模型投入使用时,模型会接触到的测试样本并不一定来自于划分好的测试集,而是从未接触过的样本。
因此将模型训练时视为只能接触到训练集样本,对训练样本做均值和极值计算来归一化,预测样本归一化时为了保证和训练样本保持一致的变换关系,才能进行准确的预测输出,因此使用训练样本的均值和极值计算。
由于预测样本不属于训练样本,预测样本以训练样本的参数进行归一化后有可能不在预计的归一化范围内。
当部分参数的梯度计算为0(接近0)时,可能是什么情况?是否意味着完成训练?
1.训练到达loss的极小值点或者变化平缓的点。
2.找到极小值点可能不是最小值点,或有多个点为最小值。
3.因此并不意味完成训练。
4.可能会受到初始w,b的影响。
随机梯度下降的batchsize设置成多少合适?过小有什么问题?过大有什么问题?提示:过大以整个样本集合为例,过小以单个样本为例来思考。
不考虑bn的情况下,batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。
对于一个大