VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION阅读笔记

网上的翻译总结不计其数了,所以直接对阅读过程中出现的一些问题进行总结
3 CLASSIFICATION FRAMEWORK
3.1 TRAINING

  • 训练图像是如何得到的(224*224)
    对一张训练图像,首先进行rescale,比如可以用双线性插值,得到短边为S的图像。然后在得到的图像中裁剪一部分,这部分的大小是224*224。one crop per image per SGD iteration 指的是每一次梯度下降的迭代就对图像重新进行一次裁剪,目的是提升鲁棒性之类的。裁剪的图像是占原图像的很大比例的,如S=256,这样图像中大部分的信息才会包含在其中的。举个例子,如果一张图片中有车,有天空,在S>>224时,裁剪了天空,标签却是车,显然是不合理的。然而,标签物体不可能永远占图片的大部分,所以后面S=384,512可能是考虑了这种情况。

the fully-connected layers are first converted to convolutional layers

  • 全连接如何转化成卷积
    在网络结构中,经过最后一个maxpool后,得到7*7*512的特征,用1*1*n去做卷积,即得到全连接层

a variable spatial resolution, dependent on the input image size

  • 为什么说取决于输入
    之前全连接已经转化成全卷积,所以得到的图像和输入有关,最后,sum-pooled指的是对最后的结果池化

  • 是否用了padding

答案是肯定的,因为最后说最后的卷积层是7*7的,可以推测每层的图像大小,卷积层是用same padding 的,图像尺寸只有在池化是才会缩小。2个3*3等效于1个5*5和是否用padding是不冲突的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值