面试准备----深度学习

最新推荐文章于 2024-02-21 22:10:42 发布

1只小包子

最新推荐文章于 2024-02-21 22:10:42 发布

阅读量391

点赞数 1

分类专栏：面试问题总结

本文链接：https://blog.csdn.net/a940902940902/article/details/89397378

版权

本文深入探讨深度学习面试中的关键知识点，包括ResNet网络结构及其解决梯度消失问题的优势，平均池化与最大池化之间的差异，反向传播的原理以及BN层和DropOut层的作用。此外，还讨论了loss曲线震荡的原因，以及ReLU函数可能导致的死结点问题。

摘要由CSDN通过智能技术生成

loss曲线震荡的原因

如果是loss曲线在周期性的变化曲线先下降后上升呈现周期性可以考虑的原因有可能对训练样本没有进行shuffle 导致相邻的batch 都是相同标签的样本从而网络参数基本没有得到更新所以会根据样本分布周期得到周期变化的loss曲线

如果是loss曲线总体是呈现下降的趋势但是在下降的过程中

ResNet的网络结构以及 ResNet和之前的网络创新的地方

相对于全连接的稠密连接结构，CNN中卷积核的尺寸远小于输入的维度，这样每个输出神经元仅和前一层特定区域的神经元存在连接，这种特性叫做稀疏交互，对于文本，图像等数据都具有局部特征，可以先学习局部特征，再将局部特征组合起来形成更复杂特征。

参数共享：卷积核中的每一个元素都将作用于每一次的局部输入的特定位置上，只需要学习一组参数不需要针对每一个位置的每一个参数进行优化。这使得卷积层具有平移不变性（先卷积操作再向右平移l个像素和先向右平移l个像素再卷积得到的是相同的结果）

ResNet提出是为了解决深层神经网络训练过程中的梯度消失问题因为对于浅层神经网络在反向传播的时候梯度涉及到多个参数和导数的连乘这时候很容易产生梯度消失和梯度爆炸的问题，影响对该层参数的学习导致最终的结果拟合和泛化能力较差 ResNet中将距离输入层近的网络层短接到距离输出层近的层
例如对于两层的网络结构输入x经过两层的神经网络的变换得到F(x),同时也短接到F(x) 之后这时候F(x)只需要拟合目标输出H(x) -x 的残差即可，如果某一层的输出以及较好的拟合了期望结果，那么多加入一层也不会使结果变差。

在short cut中加入一个1*1 的卷积让短接部分和主干网络保持相同的channel数目