2023.12.24 机器学习周报-CSDN博客

本文链接：https://blog.csdn.net/lijiaweitt/article/details/135167889

引言

引言

本周在学习神经网络的同时，主要阅读了一种代号为Inception的深度卷积神经网络架构的文献，这是一种用于卷积视觉网络的神经网络拓扑结构。其主要思想是使用现成的密集组件，通过以前层次的相关统计指导来近似一个最优的稀疏结构，旨在提高网络内部计算资源的利用率，该架构基于赫布定律和多尺度处理直觉。最终的网络被称为GoogLeNet，包含22个层次，并在ImageNet大规模视觉识别挑战赛2014年的分类和检测任务中取得了最先进的结果。

Abstract

This week, while studying neural networks, I mainly read literature on a deep convolutional neural network architecture codenamed Inception, which is a neural network topology used for convolutional vision networks. The main idea is to use ready-made dense components and approximate an optimal sparse structure through relevant statistical guidance from previous levels, aiming to improve the utilization of computing resources within the network. This architecture is based on Herb's law and multi-scale processing intuition. The final network is called GoogLeNet, which consists of 22 layers and achieved state-of-the-art results in the classification and detection tasks of the ImageNet Large scale Visual Recognition Challenge 2014.

文献阅读

1、题目

Going deeper with convolutions

2、引言

我们提出了一种代号为Inception的深度卷积神经网络架构，该架构负责在ImageNet大规模视觉识别挑战2014（ILSVRC14）中为分类和检测设定新的技术水平。这种体系结构的主要标志是提高了网络内部计算资源的利用率。这是通过精心设计实现的，该设计允许增加网络的深度和宽度，同时保持计算预算不变。为了优化质量，建筑决策基于Hebbian原理和多尺度处理的直觉。我们提交的ILSVRC14中使用的一个特定化身称为GoogLeNet，这是一个22层的深度网络，其质量在分类和检测的背景下进行评估。

3、过去模型痛点

从LeNet-5开始，卷积神经网络通常具有标准的结构—堆叠的卷积层，和一个或者多个完全连接层。对于较大的数据集，网络设计的趋势就是增加层数和每层大小，同时使用了dropout来解决过拟合问题。

4、创新点

使用了1 × 1的卷积，降低维度，减少参数量，减少计算量，增加模型深度跨深度信息交融，提高非线性的表达能力。
采用并行的多尺度卷积核，实现了多尺度的信息提取
添加了辅助损失层，增加梯度回传，增加正则项，减轻过拟合

5、Inception模型结构

Inception架构的主要思想是怎样用密集成分来近似最优的局部稀疏结构。inception的原始版本如下：

从图中可以看出它采用的是多尺度并行卷积、池化，分别用了1 × 1的卷积核，3 × 3的卷积核，5 × 5的卷积核。卷积核的大小没有什么具体要求，这样设置只是为了更好的对齐。设定卷积步长stride=1之后，只要分别设定pad=0、1、2，那么卷积之后便可以得到相同维度的特征，然后这些特征就可以直接拼接在一起了。同时在最右侧加了一个3 × 3的最大池化。池化层能够保留特征图的数量，相比与卷积操作，用少量的运算就能提取出每个通道的特征。卷积池化后形成的。

网络越到后面，特征越抽象，而且每个特征所涉及的感受野也更大了，因此随着层数的增加，3 x 3和5 x 5卷积的比例也要增加。这就会导致随着网络深度加深会导致大量的计算。而且由于pooling层不改变其通道数，通道特征图会很多。因此有了改进版本如下：

6、GoogleLeNet

GoogLeNet 是 Inception 的一个具体实现，尝试过更深更宽质量稍好的 Inception，但是提升的效果并不明显

如上表表明了在比赛中大部分共用的实例。在我们的集成模型中的 7 个模型，有 6 个网络使用了这样的网络，这 6 个网络使用了不同的图像块采样方法进行训练。也就是说在使用 GoogLeNet 参加比赛的时候最后使用了模型集成的方法。

虽然移除了全连接，但是网络中依然使用了Dropout，以70%比例失活神经元
网络最后采用了average pooling来代替全连接层，想法来自NIN,事实证明可以将TOP1 accuracy提高0.6%。但是，实际在最后还是加了一个全连接层

7、实验过程

GoogLeNet在验证和测试数据上的前5错误率均为6.67%，是挑战参与者中最高的。检测任务要求在图像中检测出物体的边界框，共有200个类别。GoogLeNet在区域提议步骤中使用了6个卷积神经网络进行分类，并将准确率从40%提高到43.9%。文章提到了对图像进行各种大小的采样，包括宽高比和面积分布在8%到100%之间，并使用光度扭曲和随机插值方法进行图像调整，以及其他技术。GoogLeNet模型减少了复杂性和计算要求，同时提高了性能，并有潜力以自动方式创建更稀疏和精细的结构。