详解VGG16以及启发

最新推荐文章于 2024-08-18 22:00:00 发布

置顶芳芳不是我真名

最新推荐文章于 2024-08-18 22:00:00 发布

阅读量2.2w

点赞数 6

分类专栏：深度学习文章标签： VGG16 深度学习基础网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010725283/article/details/78967498

版权

深度学习专栏收录该内容

5 篇文章 5 订阅

订阅专栏

论文名字是《Very Deep Convolutional Networks For Large-Scale Image Recongnition》

下载链接： http://vc.cs.nthu.edu.tw/home/paper/codfiles/melu/201604250548/VGG.pdf

为什么要读VGG16？

作为基础网络，分类性能非常好；
VGG16的网络结构非常规整，修改起来相对容易；
在ImageNet上训练的model已经公布，可以在此基础上对其他数据集进行finetuning，且对其他数据集适应能力很好；
目标检测领域使用VGG16做基础网络的网络结构很多，同样效果也很好；
作者在训练VGG16的过程中使用了很多trick，在训练网络的过程中，提供了宝贵的经验。
文中同样提供了一种在竞赛中提高准确率的思路，Fusion，这种思路在以后的论文中也经常使用。

读VGG16论文的第一步：看图！

这张图在介绍VGG16时是肯定会用到的，这张图蕴含的信息非常多，我在这里的解读可能有限，如有补充请留言。

一：

这是6个网络的对比图。从A到E，网络越来越深。其中加入了一些层用来验证效果。

二：

每一列详细讲解了每个网络的结构。

三：

这是一种正确做实验的方式，即 用最简单的方法把问题解决，然后针对出现的问题逐步优化。

网络A：先提一个比较浅的网络，这个网络很容易就在ImageNet上收敛了。

然后呐？

网络A-LRN：加一些别人（AlexNet）已经实验说有效的东西（LRN），but，好像没用。

然后呐？

网络B：那就加2层试试？好像有效果了。

然后呐？

网络C：再加两层1*1卷积吧，肯定能收敛。效果好像更好了。有点激动。

然后呐？

网络D：把1*1卷积核改成3*3的吧，试一试。效果又变好了。好像是目前最好的了（2014年）。

然后呐？

网络E：还能不能往上加了？又变好了！太厉害了！

然后呐？

可能作者也试验了，不过效果可能就会出现深度网络出现的一系列问题，梯度消失。再深可能效果更差了。

不过，这只是猜测，也可以试试看。

效果好不好不能只靠说，看下表：

VGG19的网络结构图如下所示：

训练技巧：

两大原因导致VGG16收敛速度很快（相对的）

小的卷积核，统统使用了3*3的卷积核；
某些层的初始化。

作者首先训练了网络A，因为A比较小，所以更容易收敛。

训练好A后，得到model去finetune 网络C，可以一次类推进而得到网络E。使用这种训练方法，显然可以加快收敛。

感受野：

文中有所提及，也就是为什么VGG16通过一组3*3的卷积核可以代替AlexNet中11*11的卷积核的感受野。

如果对感受野的概念不够清晰的话，可以移步： http://blog.csdn.net/u010725283/article/details/78593410

那么使用多个3*3代替7*7或者11*11的好处，后面的会有更多讲解。

Fusion，提高性能的好办法。也叫做assembling learning。

具体是怎么做呐？

方法很简单，将几个网络输出结合，也即是将softmax层的输出平均即可。

这样的方法在比赛中经常用到，基本都可以提高1%-%2的performance。

但是实际部署算法时是没法用的，这样的计算代价太大了。

最后，文中还对单目标的检测做了实验，效果也是当时最好。这个在后面文中详解。

芳芳不是我真名

关注

6
点赞
踩
71

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。