【22-23 春学期】AI作业10-经典卷积网络

最新推荐文章于 2024-08-17 14:10:11 发布

Sjdkefied

最新推荐文章于 2024-08-17 14:10:11 发布

阅读量127

点赞数 1

文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/Sjdkefied/article/details/130790400

版权

1. LeNet & MNIST

LeNet是一个早期用来识别手写数字图像的卷积神经网络，而MNIST是一个手写数字识别数据库。在这两个实验中，神经网络都被用来识别图像中的数字，但它们有不同的目标和方法。

LeNet是由Yann LeCun在1991年开发的，用于解决手写数字识别问题。它是一个基于梯度下降的神经网络结构，包含两个卷积层、两个池化层和两个全连接层。它的输入图像大小为32 x 32，每个图像都是一个28 x 28像素的灰度图像。在训练过程中，LeNet通过最小化预测值和真实值之间的差距来学习图像的特征。该网络在当时达到了手写数字识别的最先进结果，并为卷积神经网络在图像识别领域的应用奠定了基础。

LeNet-5是一种卷积神经网络（CNN）架构。它是图像分类任务中的先驱模型之一，在深度学习的发展中发挥了重要作用。LeNet-5架构专门针对手写数字识别，并且是在MNIST（Modified National Institute of Standards and Technology）数据集上进行训练的。

LeNet-5是LeNet的一个改进版本，它增加了一些层，包括一个输入层、一个卷积层、一个池化层和一个全连接层。输入图像大小为32 x 32，每个图像都是一个28 x 28像素的灰度图像。在训练过程中，LeNet-5通过最小化预测值和真实值之间的差距来学习图像的特征，并且使用的卷积核更大，池化层和全连接层的数量也更多。

MNIST数据集是机器学习领域中广泛使用的基准数据集。它包含大量手写数字图像，每个图像都是一个28x28像素的灰度图像。在训练过程中，神经网络需要学习如何将输入的图像映射到一个标记范围内，即将数字分类到0到9的类别中。MNIST数据集是用来评估神经网络在手写数字识别方面的性能的。它被广泛用于研究神经网络的基本结构和学习方法，以及探索卷积神经网络的各种应用。

在MNIST数据集上训练神经网络需要注意以下几点：

数据集需要预处理，例如将图像转换为灰度图像、将像素值归一化等。
使用反向传播算法进行优化，例如使用梯度下降来更新权重和偏置。
选择合适的超参数，例如学习率、批大小和隐藏层大小等。
训练过程需要反复迭代，直到达到一定的准确率或损失函数收敛为止。
对于验证集和测试集，需要进行测试和调参，以检验模型的性能和鲁棒性。

总之，MNIST数据集是一个非常有用的图像识别数据集，可以用于训练和评估神经网络的性能。在训练过程中，需要注意数据预处理、选择合适的超参数、反复迭代和测试调参等问题，以获得更好的模型性能。

2. AlexNet & CIFAR

AlexNet是由Alex Krizhevsky等人在2012年提出的卷积神经网络（CNN）架构。它在ImageNet图像识别挑战赛上取得了显著的突破，引领了深度学习在计算机视觉领域的发展。AlexNet的设计思想和结构对后来的CNN模型有着深远的影响。AlexNet的结构包含两个卷积层、两个池化层和四个全连接层。它使用ReLU激活函数、dropout等技术来提高网络的性能，并且在当时展示了非常出色的性能，成为了当时机器学习领域的一个里程碑。AlexNet在2012年的ImageNet竞赛中获得了冠军，并在之后的很多任务中都表现出了非常出色的性能，包括2012年的ILSVRC、2014年的Cora、2015年的ImageNet-1K和2017年的ImageNet-10K等。它也被广泛应用于计算机视觉领域的各种任务，如目标检测、语义分割和人脸识别等。

总之，AlexNet是一个非常重要的神经网络模型，它的设计和实现对于图像分类和计算机视觉领域的发展都有着非常重要的意义。

CIFAR（Canadian Institute for Advanced Research）是一个研究组织，CIFAR-10和CIFAR-100是它提供的两个常用的图像分类数据集。其中CIFAR-10数据集包含了10个类别的彩色图像，每个类别有6000张32x32像素的图像，共计60000张图像。CIFAR-100数据集则更加细粒度，包含了100个类别。

AlexNet架构在设计上与LeNet-5有所不同，它更深更复杂。AlexNet由8个卷积层和3个全连接层组成。卷积层使用多个卷积核来提取图像的特征，而全连接层则用于将提取的特征映射到不同的类别上。

对于CIFAR数据集，可以使用AlexNet进行图像分类。通常需要对输入图像进行预处理，如调整大小和归一化。然后将图像输入到AlexNet网络中，通过前向传播计算得到预测结果。

3. VGG Net

VGGNet，全称为Visual Geometry Group Network，是由Karen Simonyan和Andrew Zisserman于2014年提出的卷积神经网络（CNN）架构。VGGNet在图像分类和识别任务中表现出色，并成为了深度学习中经典的模型之一。

VGGNet的主要特点是它的深度，它采用了较小的卷积核和较深的网络结构。与之前的模型相比，VGGNet使用了更多的卷积层和更小的卷积核，这使得网络能够学习到更多的图像特征。

VGGNet的基本组件是由多个卷积层和池化层交替堆叠而成的块。这些块的堆叠使得网络能够逐渐增加深度，并逐渐提取更高级别的特征。在最后的全连接层之前，VGGNet还包括几个全连接层和激活函数。

VGGNet有几个不同的变体，其中最常用的是VGG16和VGG19。VGG16有16个卷积层，VGG19有19个卷积层，它们的名称取自它们的层数。这些模型在ImageNet图像分类挑战赛上表现出色，并成为深度学习中常用的基准模型之一。

虽然VGGNet在深度和参数量方面较大，但它在图像分类任务中具有很高的准确性。然而，由于其较大的模型规模，训练和推理时间较长，需要更多的计算资源。因此，随着时间的推移，研究人员提出了一些更高效和轻量级的网络架构，但VGGNet仍然是深度学习中重要的里程碑之一。

4. GoogLeNet & Inception v1

GoogLeNet，也被称为Inception v1，是由Google团队在2014年提出的深度卷积神经网络（CNN）架构。GoogLeNet以其高效和复杂的设计而闻名，旨在解决传统卷积神经网络中存在的问题，如参数量过大和计算复杂度高。

GoogLeNet的核心思想是采用Inception模块，该模块并行地使用不同大小的卷积核进行特征提取，然后将它们合并在一起。这样的设计可以在不增加太多参数的情况下提高网络的表达能力。Inception模块通过使用1x1、3x3和5x5的卷积核以及池化层来捕获不同尺度的图像特征，并将它们在通道维度上连接在一起，形成密集特征图。

除了Inception模块，GoogLeNet还采用了降维技术，即使用1x1的卷积核来减少特征图的通道数。这有助于减少参数量和计算量，使网络更加高效。

GoogLeNet的整体架构是由多个Inception模块和池化层交替堆叠而成。在网络的最后部分，全局平均池化层用于将特征图转化为固定大小的向量，并通过全连接层进行分类。

GoogLeNet在ImageNet图像分类挑战赛上取得了非常好的成绩，并在准确性和效率之间取得了良好的平衡。它的设计思想对后续的卷积神经网络架构有着重要的影响，并激发了更多关于网络深度和宽度的研究。

5. ResNet

ResNet，全称为Residual Neural Network，是由Kaiming He等人在2015年提出的深度卷积神经网络（CNN）架构。ResNet的设计目标是解决深度神经网络中的梯度消失和梯度爆炸问题，允许构建非常深的网络模型。

ResNet通过引入残差块（residual block）的概念来实现。在传统的卷积神经网络中，信号会通过一系列的层进行传递，而在ResNet中，残差块允许跳过某些层，直接将输入信号添加到输出中。这种直接的跳跃连接使得网络可以通过学习残差（即剩余差异），从而更好地拟合训练数据。这种设计使得网络的信息传递更加顺畅，避免了梯度在深层网络中消失或爆炸的问题。

ResNet的基本组件是由多个残差块组成的堆叠结构。每个残差块由两个卷积层和跳跃连接组成。其中，跳跃连接可以通过恒等映射（identity mapping）或使用额外的1x1卷积层来进行调整，以保持输入和输出的维度一致。

ResNet还引入了一种称为"bottleneck"的结构，在残差块中使用1x1、3x3和1x1的卷积层，以减少特征图的通道数。这样的设计旨在降低计算复杂度，同时保持网络的表达能力。

ResNet的不同变体，如ResNet-50、ResNet-101和ResNet-152，具有不同的深度，可以根据任务和资源的要求进行选择。

ResNet在图像分类、目标检测和图像分割等计算机视觉任务中取得了显著的成果。它的设计思想对于解决深度网络训练中的梯度问题具有重要意义，并成为深度学习中的重要里程碑之一。

Sjdkefied

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【22-23 春学期】AI作业10-经典卷积网络

AlexNet在2012年的ImageNet竞赛中获得了冠军，并在之后的很多任务中都表现出了非常出色的性能，包括2012年的ILSVRC、2014年的Cora、2015年的ImageNet-1K和2017年的ImageNet-10K等。在传统的卷积神经网络中，信号会通过一系列的层进行传递，而在ResNet中，残差块允许跳过某些层，直接将输入信号添加到输出中。在训练过程中，LeNet-5通过最小化预测值和真实值之间的差距来学习图像的特征，并且使用的卷积核更大，池化层和全连接层的数量也更多。
复制链接

扫一扫