计算机视觉经典论文-CNN
经典论文的框架听完相关的课程,还是记不住/(ㄒoㄒ)/~~
从论文入手,重新整理一遍
争取保证1周一篇,3月底之前完成
VGG:《Very Deep Convolutional Networks for Large-Scale Image Recognition》
作者:VGG(作者所在的牛津大学视觉几何组Visual Geometry Group的缩写)
背景介绍
- 重点研究了卷积网络深度对图像识别准确性的影响
- 主要贡献:应用3×3卷积增加网络深度,将网络深度提升至16-19层,在2024 Imagenet分类和检测比赛中分别获得第二名和第一名。
模型特点
- 仅应用3×3卷积核
- 两个3×3卷积(stride=2)具有5×5的有效感受野;三个3×3卷积(stride=2)具有7×7的有效感受野
参数比较3×(3×3×C×C)->7×7×C×C,后者比前者参数量多81% - 应用3个FC层,使决策函数更具辨识性
网络架构![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/d9f98b5f9014ca447a48f49ca19bf45f.png)
图像分类
- A-LRN为加入局部归一化的网络架构,并未使得模型效果变好
- 分类误差随着模型深度的增加而减少
- 架构C中(包含1×1卷积核)的性能比同样深度的D性能差
- 网络深度达到19层(E)时,架构的错误率饱和,更深入的模型对更大的数据集有益
测试时对图像尺寸的调整使得模型达到了更好的效果
应用两个架构的集成模型达到了比赛的最优效果,最终分类准确率仅次于GoogLeNet
结论
深度在视觉任务中具有重要性,有利于提高分类精度