![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
batch normal
文章平均质量分 93
baidu_huihui
这个作者很懒,什么都没留下…
展开
-
直观从零理解 梯度下降(Gradient descent) VS 随机梯度下降 (Stochastic gradient descent) 函数优化
首发于单变量微分(Differentiation)常用基本微分有:四则运算法则:链式法则(Chain-rule)极大值(maxima)与极小值(minima)向量微分梯度下降(Gradient descent):几何直觉学习率(Learning Rate)的直观理解案例:线性回归的梯度下降法随机梯度下降 (Stochastic gradient descent)原创 2024-01-03 09:20:05 · 739 阅读 · 0 评论 -
BN (batch normal)层原理解析
1 训练数据为什么要和测试数据同分布?看看下图,如果我们的网络在左上角的数据训练的,已经找到了两者的分隔面w,如果测试数据是右下角这样子,跟训练数据完全不在同一个分布上面,你觉得泛化能力能好吗?2 为什么白化训练数据能够加速训练进程如下图,训练数据如果分布在右上角,我们在初始化网络参数w和b的时候,可能得到的分界面是左下角那些线,需要经过训练不断调整才能得到穿过数据点的分界面,这个就使训练过程变慢了;如果我们将数据白化后,均值为0,方差为1,各个维度数据去相关,得到的数据点就是坐标上的一个圆形.原创 2020-09-22 23:48:53 · 1570 阅读 · 1 评论