计算机视觉中的深度学习8: 卷积神经网络的结构

SuPhoebe

于 2020-09-11 14:07:35 发布

阅读量689

点赞数

分类专栏：机器学习与数学模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013007900/article/details/108532349

版权

本文介绍了计算机视觉领域中深度学习的重要进展，从AlexNet开始，逐步讲解了ZFNet、VGG、GoogLeNet和Residual Networks的关键结构和设计思想。AlexNet开启深度学习在ImageNet竞赛的统治，VGG引入了规则化的网络结构，GoogLeNet通过Inception模块和辅助分类器解决了效率问题，ResNet则通过残差块解决了深度网络的优化难题。每种网络结构都有其独特优势，并推动了深度学习在计算机视觉的深入发展。

摘要由CSDN通过智能技术生成

Slides：百度云提取码: gs3n

今天这一讲，我们以ImageNet Classification Challenge中使用的CNN的发展来进行介绍。

AlexNet

在这里插入图片描述
在2012年以前，ImageNet Classification Challenge的获胜者都是人工进行特征提取的线性分类模型。在2012年，AlexNet成功登顶。

AlexNet的结构

在这里插入图片描述
蓝色部分是神经网络的结构，从这我们能够看得出来，这个神经网络的各项长宽大小都是没有明显规律的。这花费了研究人员很长时间进行调整。

黄色的部分是计算的资源

内存占有
训练参数的个数
浮点计算的次数

仔细地观察一下变化的趋势

在这里插入图片描述

内存都集中在前几个卷积层，因为卷积层是输入和输出都非常大，而且filter的个数越多，输出也越大
因为全连接层的连接方式是类似笛卡尔乘积的，所以W的个数非常大，从而产生了更多的可训练参数
filter个数对计算次数影响很大，这因为是卷积，每一次卷积都会产生大量的计算。

ZFNet

在这里插入图片描述
这本质上的设计思路和AlexNet一模一样，但是这儿使用了更大的神经网络

Conv1：使用了 (7x7 步长 2)的filter，而AlexNet使用的是(11x11 步长 4)的filter
Conv3, 4, 5：使用了512, 1024, 512个filter，而AlexNet使用了384,384,256个filter。

一般来说，更大的网络会有更好的效果。因为你能处理更大的更多的数据了，也能从数据中提取和保留更多的信息。
缺点是，收敛慢，downsample慢。

VGG

在这里插入图片描述
最重要的一点，VGG已经不需要再用人工进行一点一点调试神经网络的结构了，他通过有规律的组合，达成了非同一般的效果，这样我们能够更快地扩展神经网络，让它变得更深更大。

VGG设计规则

所有卷积层都是3x3 步长1 pad 1的结构
所有最大池

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。