vgg16介绍

最新推荐文章于 2024-05-11 01:44:27 发布

burke_____

最新推荐文章于 2024-05-11 01:44:27 发布

阅读量4.7w

点赞数 8

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/how0723/article/details/83059277

版权

深度学习专栏收录该内容

1 篇文章 1 订阅

订阅专栏

预处理

图片的预处理就是每一个像素减去了均值，算是比较简单的处理。

卷积核

整体使用的卷积核都比较小（3x3），3x3是可以表示「左右」、「上下」、「中心」这些模式的最小单元了。

3 × 3 which is the smallest size to capture the notion of left/right, up/down, center

还有比较特殊的1x1的卷积核（Inception-v1也有这个东西），可看做是空间的线性映射。

前面几层是卷积层的堆叠，后面几层是全连接层，最后是softmax层。所有隐层的激活单元都是ReLU，论文中会介绍好几个网络结构，只有其中一个应用了局部响应归一化层（Local Response Normalisation）。

使用多个较小卷积核的卷积层代替一个卷积核较大的卷积层，一方面可以减少参数，另一方面作者认为相当于是进行了更多的非线性映射，可以增加网络的拟合/表达能力。

具体结构

vgg16的由来，从上图可知，该结构有13个卷积层，3个全链接层。一共13+3=16

训练

训练速度变快的猜测

隐含的正则项，就是将5x5和7x7这样的卷积分解为多个3x3的卷积的堆叠
对一些层的预初始化

训练数据生成

如果要使用224x224的图作为训练的输入，用S表示图片最小边的值，当S=224时这个图就直接使用，直接将多余的部分减掉（我的理解）；对于S远大于224的，可以通过剪切这个图片中包含object的子图作为训练数据。

这部分看了半天都没有理解，没有看过以前的论文真是考验理解能力（捂脸）~，来子这里的解释

Multi-scale 训练

把原始 image缩放到最小边S>224；然后在full image上提取224*224片段，进行训练。

方法1：在S=256，和S=384上训练两个模型，然后求平均

方法2：类似OverFeat测试时使用的方法，在[Smin,Smax]scale上，随机选取一个scale，然后提取224*224的图片，训练一个网络。这种方法类似图片尺寸上的数据增益。

关注

8
点赞
踩
45

收藏

觉得还不错? 一键收藏
4
评论
vgg16介绍

预处理图片的预处理就是每一个像素减去了均值，算是比较简单的处理。卷积核整体使用的卷积核都比较小（3x3），3x3是可以表示「左右」、「上下」、「中心」这些模式的最小单元了。3 × 3 which is the smallest size to capture the notion of left/right, up/down, center还有比较特殊的1...
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。