用PyTorch创建一个图像分类器？So easy！

最新推荐文章于 2023-03-23 23:21:02 发布

云栖社区v

最新推荐文章于 2023-03-23 23:21:02 发布

阅读量408

点赞数

摘要：本文将为你介绍为何要重用神经网络？哪部分可以重用，哪部分不可以重用。了解完这些基础概念，你就可以自行创建一个图像分类器了。

经过了几个月的学习和实践，我完成了优达学城网站上《PythonProgramming with Python Nanodegree》课程的学习，该课程的终极项目就是使用Pytorch为102种不同类型的花创建一个图像分类器。

https://www.udacity.com/course/ai-programming-python-nanodegree--nd089

http://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html

在完成这个项目的过程中，我和其他学员一样，都碰到了各种问题和挑战，因此写下了这篇文章。希望你读完这篇文章以后，会对你的机器学习有所裨益。

本文介绍了如何实现图像分类的基础概念，即理解图像内容的算法。本文并不会详细分步说明构建模型的具体步骤，而是从宏观上介绍整个过程，如果你正在学习机器学习或人工智能，相信这篇文章将会对你很有帮助。

在第一部分中，我们将介绍加载预训练的神经网络，为什么要“重用”网络（即使用预训练神经网络），指明哪些部分可以重用，哪些部分不可以重用，以及如何自定义预训练网络。

加载一个预训练网络

“重用”是一个非常合理的策略，特别是当某些工具是大家都认可为标准的时候，“重用”更显得尤为重要。在这个例子中，我们的出发点是torchvision提供的一个模型框架。

https://pytorch.org/docs/stable/torchvision/models.html

现在，我们要做的是加载一个预先训练好的网络，并用自己的网络替换它的分类器，然后，我们就可以训练自己的分类器了。

虽然这个想法很合理，但是也比较麻烦，因为加载一个预先训练好的网络，并不会节省我们训练分类器的工作量。

所以，使用预训练网络到底有什么好处呢？

当我们人类在看图像的时候，我们会识别线条和形状，鉴于此，我们才可以将图像内容与之前看到的内容联系起来。现在，我们希望分类器也能做到这点，但是，图像并不是一个简单的数据，而是由数千个独立的像素组成，每个像素又由3个不同的值组合起来，形成颜色，即红色、绿色和蓝色。

从左到右，依次为：原始图像，红色，绿色，蓝色。

如果我们希望分类器能够处理这些数据，我们要做的就是将每个待处理图像所包含的信息，以分类器可以理解的格式传给分类器，这就是预训练网络发挥作用的地方。

这些预训练网络主要由一组特征检测器和分类器组成，其中，特征检测器被训练成可以从每个图像中提取信息，分类器被训练成理解特征层提供的输入。

在这里，特征检测器已经在ImageNet中接受过训练，并且性能良好，我们希望这点能够继续保持。在训练分类器时，为了防止特征层被篡改，我们得对特征层进行“冻结”，下面这些代码可以很轻松的解决这一问题：

那么，问题又来了，既然我们可以“重用”特征检测器，我们为什么不能“重用”分类器？要回答这个问题，我们先来看看VGG16架构的默认分类器：

首先，我们没办法保证这些代码能够起作用，在我们特定的环境中，这些默认层、元素、激活函数以及Dropout值并不一定是最佳的。

尤其是最后一层的输出是1000个元素，这就容易理解了。在我们的例子中，我们要对102种不同类型的花进行分类，因此，我们的分类器输出必须是102，而不是1000。

从上面VGG16架构的默认分类器中，我们还可以注意到，分类器的输入层有25088个元素，这是特定预训练模型中特征检测器的输出大小，因此，我们的分类器大小也必须要与要特征层的输出相匹配。

结论

从上面的分析，本文能够得到以下结论：

1.预先训练好的网络非常有用。使用预训练模型，可以让我们更加专注于我们自己用例的具体细节，还可以重用众所周知的工具，对用例中的图像进行预处理。

2.分类器的输出大小必须与我们希望识别的图像数量相同。

3.特征层的输出和自定义分类器的输入大小必须相匹配。

在第一部分中，我们知道了为什么以及如何加载预先训练好的神经网络，我们可以用自己的分类器代替已有神经网络的分类器。那么，在这篇文章中，我们将学习如何训练分类器。

训练分类器

首先，我们需要为分类器提供待分类的图像。本文使用ImageFolder加载图像，预训练神经网络的输入有特定的格式，因此，我们需要用一些变换来调整图像的大小，即在将图像输入到神经网络之前，对其进行裁剪和标准化处理。

具体来说，将图像大小调整为224*224，并对图像进行标准化处理，即均值为 [0.485,0.456,0.406]，标准差为[0.229,0.224,0.225]，颜色管道的均值设为0，标准差缩放为1。

然后，使用DataLoader批量传递图像，由于有三个数据集：训练数据集、验证数据集和测试数据集，因此需要为每个数据集创建一个加载器。一切准备就绪后，就可以训练分类器了。

在这里，最重要的挑战就是——正确率（accuracy）。

让模型识别一个已经知道的图像，这不算啥事，但是我们现在的要求是：能够概括、确定以前从未见过的图像中花的类型。在实现这一目标过程中，我们一定要避免过拟合，即“分析的结果与特定数据集的联系过于紧密或完全对应，因此可能无法对其他数据集进行可靠的预测或分析”。

隐藏层

实现适当拟合的方法有很多种，其中一种很简单的方法就是：隐藏层。

我们很容易陷入这样一种误区：拥有更多或更大的隐藏层，能够提高分类器的正确率，但事实并非如此。

增加隐藏层的数量或大小以后，我们的分类器就需要考虑更多不必要的参数。举个例子来说，将噪音看做是花朵的一部分，这会导致过拟合，也会降低精度，不仅如此，分类器还需要更长的时间来训练和预测。

因此，我建议你从数量较少的隐藏层开始，然后根据需要增加隐藏层的数量或大小，而不是一开始就使用特别多或特别大的隐藏层。

在第一部分介绍的《AI Programming with Python Nanodegree》课程中的花卉分类器项目中，我只需要一个小的隐藏层，在第一个完整训练周期内，就得到了70%以上的正确率。

数据增强

我们有很多图像可供模型训练，这非常不错。如果拥有更多的图像，数据增强就可以发挥作用了。每个图像在每个训练周期都会作为神经网络的输入，对神经网络训练一次。在这之前，我们可以对输入图像做一些随机变化，比如旋转、平移或缩放。这样，在每个训练周期内，输入图像都会有差异。

增加训练数据的种类有利于减少过拟合，同样也提高了分类器的概括能力，从而提高模型分类的整体准确度。

Shuffle

在训练分类器时，我们需要提供一系列随机的图像，以免引入任何误差。

举个例子来说，我们刚开始训练分类器时，我们使用“牵牛花”图像对模型进行训练，这样一来，分类器在后续训练过程中将会偏向“牵牛花”，因为它只知道“牵牛花”。因此，在我们使用其他类型的花进行训练时，分类器最初的偏好也将持续一段时间。

为了避免这一现象，我们就需要在数据加载器中使用不同的图像，这很简单，只需要在加载器中添加shuffle=true，代码如下：

Dropout

有的时候，分类器中的节点可能会导致其他节点不能进行适当的训练，此外，节点可能会产生共同依赖，这就会导致过拟合。

Dropout技术通过在每个训练步骤中使一些节点处于不活跃状态，来避免这一问题。这样一来，在每个训练阶段都使用不同的节点子集，从而减少过拟合。

Dropout图

除了过拟合，我们一定要记住，学习率（ learning rate ）是最关键的超参数。如果学习率过大，模型的误差永远都不会降到最小；如果学习率过小，分类器将会训练的特别慢，因此，学习率不能过大也不能过小。一般来说，学习率可以是0.01,0.001,0.0001……，依此类推。

最后，在最后一层选择正确的激活函数会对模型的正确率会产生特别大的影响。举个例子来说，如果我们使用 negative log likelihood loss（NLLLoss），那么，在最后一层中，建议使用LogSoftmax激活函数。

结论

理解模型的训练过程，将有助于创建能够概括的模型，在预测新图像类型时的准确度更高。

在本文中，我们讨论了过拟合将会如何降低模型的概括能力，并学习了降低过拟合的方法。另外，我们也强调了学习率的重要性及其常用值。最后，我们知道，为最后一层选择正确的激活函数非常关键。

现在，我们已经知道应该如何训练分类器，那么，我们就可以用它来预测以前从未见过的花型了！

阿里云云栖社区组织翻译。

文章原标题《Implementing an Image Classifier with PyTorch》

译者：Mags，审校：袁虎。

640?wx_fmt=png

end

Alibaba Cluster Data 开源：270GB 数据揭秘你不知道的阿里巴巴数据中心

如何去设计前端框架能力？星巴克消息开放项目从0到1，从点到面的思考

Spring Cloud Config 规范

年度大盘点：机器学习开源项目及框架