深度学习课程系列笔记（三）

最新推荐文章于 2024-05-21 17:06:30 发布

chenD_hit

最新推荐文章于 2024-05-21 17:06:30 发布

阅读量64

点赞数

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/chen_D_u_0/article/details/129973529

版权

深度学习课程学习记录，与吴恩达深度学习课程、《动手学深度学习》相结合。

AlexNet

Alexnet是由2012年ImageNet参赛者Hinton和他的学生设计的，Alexnet赢得了当年ImageNet图像分类竞赛的冠军，引发了神经网络的研究和使用热潮。

模型结构：

改进之处：

使用ReLU激活函数代替sigmoid函数，用于卷积层和全连接层之后。
使用dropout，以一定的概率p随机关闭激活函数，有效减少过拟合。
使用双GPU策略，提高训练速度。
引入局部相应归一化操作LRN。

VGG-16

VGGNet是一种由Karen Simonyan和Andrew Zisserman在2014年提出的卷积神经网络，主要用于ImageNet图像识别任务。它使用了多个小尺寸的卷积核来替代原来的大尺寸卷积核，以提高模型的准确率。

改进之处：

通道数较多，网络加深。
各卷积层和池化层的超参数基本相同，整体结构呈现出规整的特点。

ResNet

ResNet采用了残差学习的思想，允许网络中存在跨层连接，解决了深度网络训练时出现的梯度消失和梯度爆炸问题，从而使得网络可以更深更复杂。

网络层数过多会产生梯度消失（每一层误差梯度是一个小于1的数，每进行一次反向传播会乘以一个小于1的数，导致最后梯度消失）或者梯度爆炸（与梯度消失相反）；网络层数加深会产生退化现象。

卷积层主要有3×3的过滤器，并遵循两个简单的设计规则:①对输出特征图的尺寸相同的各层，都有相同数量的过滤器; ②如果特征图的大小减半，那么过滤器的数量就增加一倍，以保证每一层的时间复杂度相同。ResNet模型比VGG网络更少的过滤器和更低的复杂性。ResNet具有34层的权重层，有36亿 FLOPs，只是VGG-19（19.6亿FLOPs）的18%。

常用数据集

Minist

MNIST 数据集主要由一些手写数字的图片和相应的标签组成，图片一共有 10 类，分别对应从 0~9。原始的 MNIST 数据库一共包含下面 4 个文件：

MNIST数据集是由0〜9手写数字图片和数字标签所组成的，由60000个训练样本和10000个测试样本组成，每个样本都是一张28 * 28像素的灰度手写数字图片。

CIFAR-10数据集

CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有10000 个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。

PASCAL VOC数据集

PASCAL的全称是Pattern Analysis, Statistical Modelling and Computational Learning，VOC的全称是Visual Object Classes，是目标分类(识别)、检测、分割最常用的数据集之一。PASCAL VOC数据集一共分为20类：person, bird, cat, cow, dog, horse, sheep, aeroplane, bicycle, boat, bus, car, motorbike, train, bottle, chair, dining table, potted plant, sofa, tv/monitor。

图像示例：

MS COCO数据集

PASCAL的全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集。数据集以scene understanding为目标，主要从复杂的日常场景中截取。包含目标分类(识别)、检测、分割、语义标注等数据集。提供的标注类别有80 类，有超过33 万张图片，其中20 万张有标注，整个数据集中个体的数目超过150 万个。