resnet论文阅读笔记

y = F ( x , Wi )+ x
对于相同的输出特征图尺寸,层具有相同数量的滤波器;( ii )如果特征图尺寸减半,则滤波器数量加倍,以便保持每层的时间复杂度。我们通过步长为 2 的卷积层直接执行下采样。网络以全局平均池化层和具有 softmax 1000 维全连接层结束
快捷连接仍然执行恒等映射,额外填充零输入以增加维度。此选项不会引入额外的参数;( B )方程( 2 )中的投影快捷连接用于匹配维度(由 1×1 卷积完成)。对于这两个选项,当快捷连接跨越两种尺寸的特征图时,它们执行时步长为 2
在每个卷积之后和激活之前,我们采用批量归一化( BN
恒等和投影快捷连接 我们已经表明没有参数,恒等快捷连接有助于训练 。三种选项 a 零填充快捷连接用来增加维度,所有的快捷连接是没有参数的(与表 2 和图 4 右相同); (B) 投影快捷连接用来增加维度,其它的快捷连接是恒等的;(C)所有的快捷连接都是投影。
对于每个残差函数 F ,我们使用三层堆叠而不是两层。三层是 1×1 3×3 1×1 卷积,其中 1×1 层负责减小然后增加(恢复)维度,使 3×3 层成为具有较小输入 / 输出维度的瓶颈。图 5 展示了一个示例,两个设计具有相似的时间复杂度。
当维度增加(图 3 中的虚线快捷连接)时,我们考虑两个选项:( A )快捷连接仍然执行恒等映射,额外填充零输入以增加维度。此选项不会引入额外的参数;( B )方程( 2 )中的投影快捷连接用于匹配维度(由 1×1 卷积完成)。对于这两个选项,当快捷连接跨越两种尺寸的特征图时,它们执行时步长为 2
无参数恒等快捷连接对于瓶颈架构尤为重要。如果 恒等快捷连接被投影替换,则可以显示出时间复杂度和模型大小加倍,因为快捷连接是连接到两个高维端。因此,恒等快捷连接可以为瓶颈设计得到更有效的模型。
这些响应每个 3×3 层的输出,在 BN 之后和其他非线性( ReLU / 加法)之前。
这个 1202 层网络的测试结果比我们的 110 层网络的测试结果更差,虽然两者都具有类似的训练误差。我们认为这是因为过拟合。对于这种小型数据集, 1202 层网络可能是不必要的大

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值