loss曲线震荡的原因
如果是loss曲线在周期性的变化 曲线先下降后上升 呈现周期性 可以考虑的原因有 可能对训练样本没有进行shuffle 导致相邻的batch 都是相同标签的样本 从而网络参数基本没有得到更新 所以会根据样本分布周期得到周期变化的loss曲线
如果是loss曲线总体是呈现下降的趋势 但是在下降的过程中
ResNet的网络结构以及 ResNet和之前的网络创新的地方
相对于全连接的稠密连接结构,CNN中卷积核的尺寸远小于输入的维度 ,这样每个输出神经元仅和前一层特定区域的神经元存在连接,这种特性叫做稀疏交互,对于文本 ,图像等数据都具有局部特征,可以先学习局部特征,再将局部特征组合起来形成更复杂特征。
参数共享:卷积核中的每一个元素都将作用于每一次的局部输入的特定位置上 ,只需要学习一组参数 不需要针对每一个位置的每一个参数进行优化。这使得卷积层具有平移不变性(先卷积操作 再向右平移l个像素 和先向右平移l个像素再卷积得到的是相同的结果)
ResNet提出是为了解决深层神经网络训练过程中的梯度消失问题 因为对于浅层神经网络在反向传播的时候梯度涉及到多个参数和导数的连乘 这时候很容易产生梯度消失和梯度爆炸的问题,影响对该层参数的学习 导致最终的结果拟合和泛化能力较差 ResNet中将距离输入层近的网络层短接到距离输出层近的层
例如 对于两层的网络结构 输入x经过两层的神经网络的变换得到F(x),同时也短接到F(x) 之后这时候F(x)只需要拟合目标输出H(x) -x 的残差即可 ,如果某一层的输出以及较好的拟合了期望结果 ,那么多加入一层也不会使结果变差。
在short cut中加入一个1*1 的卷积 让短接部分和主干网络保持相同的channel数目