深度学习入门笔记(学自李沐等)
Pytorch
李二B站
3.梯度消失,爆炸解决方法
权重初始话服从随机分布,有根据输入输出维度确定的均值,方差
激活函数也保证网络每一层不改变输入输出均值,方差
吴恩达B站
1 正则化‘
1.1 ‘L2’正则化
λ增大,w减小,z减小。则激活值a集中在0附近(近似线性区间内)
换句话说,λ增大,网络越接近于线性网络。从而方差降低,偏差增大。
过拟合:高方差
欠拟合:高偏差
理解方差与偏差:
1.2 dropout正则化
dropout:在网络每一层随机删除一些节点,通过参数keep_probs(保持概率)控制删除的概率,可以在每一层设置不同的keep_probs。
a[L]*keep_probs随机删除后,需要再除以keep_probs才能给到下一层网络。
1.3 其他正则化
数据扩增(图像翻转,旋转放大…)增大训练集;
Early stopping,在验证集误差最小时停止训练;缺陷:提前停止训练,避免过拟合的同时也停止了代价函数的优化。
2 归一化
方法:样本数据先除以均值,再除以方差
作用:模型更容易优化,代价函数更容易收敛
李沐深度学习
1. strid和padding
1.pytorch内置函数里的padding是指宽高各自增加一定padding,实际计算需×2
2.如果不考虑步长,保证图像尺寸不变,kernal_size / 2结果即为函数的padding,
3.仅考虑步长
4.仅考虑padding和步长
2 faster-rcnn, yolo3,center-net,ssd比较
右上角速度快,精度高