VGG
Simonyan and Zisserman “Very Deep Convolutional Networks for Large-Scale Image Recognition” ICLR2015
动机(Why)
探讨加深网络的可能性,加深到16-19层,继续在ImageNet上刷点
方法(How)
-
所有层都采用3x3的小卷积核
-
和AlexNet一样,都使用Local Response Normalization 局部响应归一化
-
卷积卷积池化卷积卷积池化不断重复,最后累加fc层,softmax
-
测试的时候进行集成
-
希望训练另一个A模型,B模型使用A模型的部分pretrain参数,训练B网络的时候就不对那些pretrain的参数,采用学习率衰减了。后来作者发现多此一举,随机初始化参数即可。
-
随机裁剪,水平翻转,RGB颜色变化,多尺度训练,每张图像单独从[Smin ,Smax ]中随机选取S来进行尺寸缩放,由于图像中目标物体尺寸不定,因此训练中采用这种方法是有效的,可看作一种尺寸抖动的训练集数据增强
扩展应用
fc7 features可以去做迁移学习
定位&分类的ImageNet2014冠军
英文表达
- As a result, we come up with xx, which not only xx, but also xx, where xx
- To measure xx in a fair setting, all our ConvNet layer configurations are designed using the same principles, inspired by
- The image is passed through a stack of convolutional (conv.) layers, where we use filters with a very small receptive field: 3×3
- All hidden layers are equipped with the rectification (ReLU) non-linearity.
- The ConvNet configurations, evaluated in this paper, are outlined in Table 1, one per column. In the following we will refer to the nets by their names (A–E). (图表描述
实验设计
- 初始学习率为0.001,当验证集准确率不再提高时,学习率衰减为原来的0.1倍,总共下降三次
- 全连接层等效替换为卷积层进行测试,将卷积核大小设置为输入空间大小,这样的好处在于输入图像的大小不再受限制,因此可以高效地对图像作滑动窗式预测;而且全连接层的计算量比较大,等效卷积层的计算量减小了,这样既达到了目的又十分高效。
优缺点分析
优点:
- 探索了更深层的网络
- 小卷积核的优势
- fc7 features可以做迁移
缺点:
- 占用内存过大,参数文件就有500M
总结
- VGG-16, VGG-19
- 累加多层 3x3 small filters可以与7x7的感受野相同
- 占用内存过大
- fc7 features 可以用在其他场景