论文阅读 AlexNet ImageNet Classification with Deep ConvolutionalNeural Networks

本文概述了几个关键的深度学习卷积神经网络论文,包括LeNET、AlexNet、VGGNet、GoogleNet和ResNet等,介绍了它们在图像识别中的应用,讨论了参数量、过拟合控制、GPU加速和ImageNet数据集的使用。重点分析了网络结构、参数共享、正则化方法和池化技术,展示了深度学习模型如何压缩空间信息并增强语义理解。
摘要由CSDN通过智能技术生成

 主干网络论文阅读(按论文时间顺序):

论文阅读 LeNET CONVOLUTIONAL NEURAL NETWORKS FOR ISOLATED CHARACTER RECOGNITION-CSDN博客

论文阅读 AlexNet ImageNet Classification with Deep ConvolutionalNeural Networks-CSDN博客

论文阅读 VGGNet VERY DEEP CONVOLUTIONALNETWORKSFORLARGE-SCALEIMAGERECOGNITION-CSDN博客

论文阅读 GoogleNet(Inception) Going deeper with convolutions-CSDN博客

论文阅读 ResNet Deep Residual Learning for Image Recognition-CSDN博客

论文阅读 ResNext Aggregated Residual Transformations for Deep Neural Networks-CSDN博客


Abstract—摘要

用深度卷积做了个图像分类;

网络有6000万个参数、65万个神经元;

dropout正则化减少过拟合

因为训练压力太大,所以用了两个GPU

没有使用无监督进行预训练

Introduce—介绍

数据集用的ImageNet(ImageNet包含超1500万张图像,属于约22000个类别)

CNN计算成本高,因此用GPU以及高度优化的2D卷积来实现CNN的训练

图像处理:ImageNet中图像尺寸不一,因此先resize、裁剪,得到256*256

网络结构

网络架构分为八个层,其中有五个卷积层和三个全连接层,激活函数用relu(作者认为它比tanh快)

RELU层用了一个局部相应归一化(LRN)的方法,现在看来效果并不好,略

Overlapping Pooling—重叠池化:一般的池化,一个像素是不会被多次池化的,重叠池化设置步长s小于池化核大小z,得到重叠池化,比一般的池化效果好

流程图:

  1. 因为在两个GPU上运行,所以网络结构被一切为二,上下两部分各自训练各自的,各有各的参数核,结构都是一样的(比如一层网络有64个卷积核,就上面32、下面32,得到两个通道为32的层,实际上是一个64通道的层切成了俩)
  2. 整个结构有八层,前五层为卷积层,后三层为全连接层,最后再跟一个1000的分类激活函数softmax,相当于多个logistic回归来进行多元分类。
  3. 二、四、五层只与自己这个GPU前一层训练的输出有关系。第三层卷积层与前一层的两个GPU训练出来的都有关系,在通道维度上做了一个融合。全连接层就与前一层中所有神经元相连。
  4. 前面提的局部归一化用在了第一层和第二层的卷积层。
  5. 前面提的重叠池化用在第125层。
  6. 八层每一层都应用了ReLU函数。
  7. 这些层的顺序:局部归一化放在ReLU之前,然后重叠池化跟在ReLU之后。
  8. 规律:我们输入的图片从一个又高又宽又扁的一个形状,慢慢变为了一个宽和高都很小,但是很长的一个张量,这是说我们的空间信息被压缩了也就是从一开始的224变为了后面的13,也就是13中的一个像素能表示之后一大片像素。通道数变多也就是变长了,通道数可以理解为对于一个模式的识别,例如通道数为192那么说明可以识别图中192个模式,例如猫腿、爪子这种模式。所以说整个过程就是空间信息被压缩,但是语义信息空间慢慢增加。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值