笔记——CNN Architectures(cs231n 斯坦福计算机视觉公开课)

本文探讨了从LeNet到ResNet的CNN架构演变,包括AlexNet、VGG和GoogLeNet的关键特点。LeNet是早期的代表,AlexNet引入深度学习,VGG通过小卷积核增加深度,GoogLeNet则采用Inception模块减少参数。ResNet通过残差连接解决了深度学习中的梯度消失问题,允许网络进一步加深。
摘要由CSDN通过智能技术生成

常见的 CNN Architectures

  1. LeNet-5

  2. AlexNet 

  3. VGG

  4. GoogLeNet

  5. ResNet

一些计算:

全连接层、卷积、池化操作对于维度的改变:

Fully Connected Layer:暴力拉平操作,不管原来是什么样的长*宽*深。

image \: \: \: size:32\times 32\times \times 3 \Rightarrow 3072 \times 1

假设上图是一个分类神经网络的最后两层,该全连接层连接着输出层,输出层给出十个类别的数值。每一行权重W都表示一个 template,也就是一个类别,比如猫啊狗啊青蛙啊。

         

如图,左边粉色块状image \: \: \: size:32\times 32\times \times 3,右边蓝色块状表示一个卷积核。经过6个5\times 5\times 3的卷积核后

  

得到了一个新的 image:28\times 28\times 6(所以卷积核会改变输入的深度)

卷积操作后的输出:

输入:W_{1}\times H_{1}\times D_{1}

滤波器:KF\times F\times D_{1}

stride

深度学习-面向视觉识别的卷积神经网络,2016斯坦福大学公开课。课程介绍: 计算机视觉在社会中已经逐渐普及,并广泛运用于搜索检索、图像理解、手机应用、地图导航、医疗制药、无人机和无人驾驶汽车等领域。而这些应用的核心技术就是图像分类、图像定位和图像探测等视觉识别任务。近期神经网络(也就是“深度学习”)方法上的进展极大地提升了这些代表当前发展水平的视觉识别系统的性能。 本课程将深入讲解深度学习框架的细节问题,聚焦面向视觉识别任务(尤其是图像分类任务)的端到端学习模型。在10周的课程中,学生们将会学习如何实现、训练和调试他们自己的神经网络,并建立起对计算机视觉领域的前沿研究方向的细节理解。最终的作业将包括训练一个有几百万参数的卷积神经网络,并将其应用到最大的图像分类数据库(ImageNet)上。我们将会聚焦于教授如何确定图像识别问题,学习算法(比如反向传播算法),对网络的训练和精细调整(fine-tuning)中的工程实践技巧,指导学生动手完成课程作业和最终的课程项目。本课程的大部分背景知识和素材都来源于ImageNet Challenge竞赛。 主讲人: 李飞飞,斯坦福大学计算机科学系副教授。担任斯坦福大学人工智能实验室和视觉实验室主任,主要研究方向为机器学习、计算机视觉、认知计算神经学。她在TED上的演讲,如何教计算机理解图片。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值