基于ResNet 18实现的MNIST数字多分类（pytorch 框架）

最新推荐文章于 2023-11-17 22:40:46 发布

qq_53393298

最新推荐文章于 2023-11-17 22:40:46 发布

阅读量1.1k

点赞数

文章标签：分类 pytorch 深度学习

本文链接：https://blog.csdn.net/qq_53393298/article/details/127341131

版权

基于ResNet 18实现的MNIST数字多分类（pytorch 框架）

下文将进行对于原理的介绍，若已了解原理可直接到文末 免费获取完整代码。

一、原理介绍

MNIST是一个非常有名的手写数字识别数据集，在很多资料中，这个数据集都会被用作深度学习的入门案例。

MNIST数据集是NIST数据集的一个子集，它包含了60000张图片作为训练数据，10000张图片作为测试数据。在MNIST数据集中的每一张图片都代表了0~9中的一个数字。图片的大小都为28x28，且数字都会出现在图片的正中间，这些都是灰阶图像所以是一层三维的数据。

首先我们来看一下有十个分类的情况下那他们的输出如何：这10个概率的输出应该是总和=1且均>0的。但某些情况下，可能会出现P(y=1)=0.8，P(y=2)=0.9 这样的情况，所以当求出P(y=1)=0.8后需要对后面的概率情况进行抑制。

神经网络计算出来的结果可能是小于0的，可能总和不为1，在多分类问题的背景下，loss函数使用一个更加复杂的函数，叫交叉熵。sigmoid函数可以将任何一个值转化到0~1之间，对于一个二分类问题，这样就足够了，如果不属于第一类，那么必定属于第二类，所以只需要用一个值来表示其属于其中一类概率，但是对于多分类问题，需要知道其属于每一类的概率，这个时候需要softmax函数。softmax的公式如下：

其中，z_l是线性层最后一层的输出，e^zi作用为强制使其>0，分母的作用为保证概率求Σ之后为1，这样就实现了功能需求。softmax作用的示意图如下图所示。

接下来我们将进行多分类问题中损失函数的求解。

pytorch提供了现成的交叉熵损失函数框架，该框架包含了从softmax开始一直到输出的全过程，所以输入的时候只需要将神经网络计算的原始结果输入到框架中就行了，不需要做激活。

深度残差网络（Deep residual network, ResNet）的提出是CNN图像史上的一件里程碑事件。对于一个堆积层结构（几层堆积而成）。对于一个堆积层结构（几层堆积而成）当输入为 x时其学习到的特征记为F(x), 现在再加一条分支，直接跳到堆积层的输出，则此时最终输出H(x) = F(x) + x。

18层的网络有五个部分组成，从conv2开始，每层都有两个有残差块，并且每个残差块具有2个卷积层。

其中，蓝色部分为conv2,然后往下依次按颜色划分为conv3、conv4，conv5。需要注意的是，从conv3开始，第一个残差块的第一个卷积层的stride为2，这是每层图片尺寸变化的原因。另外，stride为2的时候，每层的维度也就是channel也发生了变化，这这时候，残差与输出不是直接相连的，因为维度不匹配，需要进行升维，也就是上图中虚线连接的残差块，实线部分代表可以直接相加。

二、代码实现效果

最后实现了基于ResNet 18实现的MNIST数字多分类（pytorch 框架）的代码实现，代码实现效果如下：