面试准备----深度学习

本文深入探讨深度学习面试中的关键知识点,包括ResNet网络结构及其解决梯度消失问题的优势,平均池化与最大池化之间的差异,反向传播的原理以及BN层和DropOut层的作用。此外,还讨论了loss曲线震荡的原因,以及ReLU函数可能导致的死结点问题。
摘要由CSDN通过智能技术生成
loss曲线震荡的原因

如果是loss曲线在周期性的变化 曲线先下降后上升 呈现周期性 可以考虑的原因有 可能对训练样本没有进行shuffle 导致相邻的batch 都是相同标签的样本 从而网络参数基本没有得到更新 所以会根据样本分布周期得到周期变化的loss曲线

如果是loss曲线总体是呈现下降的趋势 但是在下降的过程中

ResNet的网络结构以及 ResNet和之前的网络创新的地方

相对于全连接的稠密连接结构,CNN中卷积核的尺寸远小于输入的维度 ,这样每个输出神经元仅和前一层特定区域的神经元存在连接,这种特性叫做稀疏交互,对于文本 ,图像等数据都具有局部特征,可以先学习局部特征,再将局部特征组合起来形成更复杂特征。

参数共享:卷积核中的每一个元素都将作用于每一次的局部输入的特定位置上 ,只需要学习一组参数 不需要针对每一个位置的每一个参数进行优化。这使得卷积层具有平移不变性(先卷积操作 再向右平移l个像素 和先向右平移l个像素再卷积得到的是相同的结果)

ResNet提出是为了解决深层神经网络训练过程中的梯度消失问题 因为对于浅层神经网络在反向传播的时候梯度涉及到多个参数和导数的连乘 这时候很容易产生梯度消失和梯度爆炸的问题,影响对该层参数的学习 导致最终的结果拟合和泛化能力较差 ResNet中将距离输入层近的网络层短接到距离输出层近的层
例如 对于两层的网络结构 输入x经过两层的神经网络的变换得到F(x),同时也短接到F(x) 之后这时候F(x)只需要拟合目标输出H(x) -x 的残差即可 ,如果某一层的输出以及较好的拟合了期望结果 ,那么多加入一层也不会使结果变差。

在short cut中加入一个1*1 的卷积 让短接部分和主干网络保持相同的channel数目

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值