AI实战营第二课！图像分类是计算机视觉的基础任务_为什么ai领域最初的大规模数据集是对于图片的分类,而不是针对更为传统的格式化数-CSDN博客

文章讨论了图像分类的关键在于特征描述和物体识别，传统方法如SIFT、HOG等被深度学习的CNN网络超越。深度学习能自动学习图像的抽象特征，减少‘语义鸿沟’。提到训练模型时，如果模型收敛效果差，可能原因包括数据标注错误、学习率不合适、模型容量不足等。在选择优化器时，SGD带momentum常被使用，但自适应学习率的优化器如Adam、RMSProp能更快收敛。学习率下降策略如piecewise_decay、cosine_decay等影响模型的收敛速度和精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

图像分类是要解决图片中是否包含某类物体的问题，对图像进行特征描述是物体分类的主要研究内容。一般说来，物体分类算法通过手工特征或者特征学习方法对整个图像进行全局描述，然后使用分类器判断是否存在某类物体。应用比较广泛的图像特征有SIFT，HOG，SURF等。这些对图像分类的研究中，大多数特征提取过程是人工设计的，通过浅层学习获得图像底层特征，与图像高级主题间还存在很大的“语义鸿沟” 。而深度学习利用设定好的网络结构，完全从训练数据中学习图像的层级结构性特征，能够提取更加接近图像高级语义的抽象特征，因此在图像识别上的表现远远超过传统方法。
近十年以来，计算机视觉领域和 CNN 网络结构的不断更新发展，出现了一批代表性的深度卷积神经网络。代表性的有LeNet、Alex Net、VGG、Goog LeNet、 Res Net、Res Next。这些基础网络的发展促进了视觉领域各个任务的发展。
对神经网络的训练有很多注意事项。
Q: 训练过程中，如果模型收敛效果很差，可能的原因有哪些呢？
A: 主要有以下几个可以排查的地方：（1）应该检查数据标注，确保训练集和验证集的数据标注没有问题。（2）可以试着调整一下学习率（初期可以以10倍为单位进行调节），过大（训练震荡）或者过小（收敛太慢）的学习率都可能导致收敛效果差。（3）数据量太大，选择的模型太小，难以学习所有数据的特征。（4）可以看下数据预处理的过程中是否使用了归一化，如果没有使用归一化操作，收敛速度可能会比较慢。（5）数据集存在长尾问题，可以参考数据长尾问题解决方案。
Q: 训练图像分类任务时，该怎么选择合适的优化器？
A: 优化器的目的是为了让损失函数尽可能的小，从而找到合适的参数来完成某项任务。目前业界主要用到的优化器有SGD、RMSProp、Adam、AdaDelt等，其中由于带momentum的SGD优化器广泛应用于学术界和工业界，所以我们发布的模型也大都使用该优化器来实现损失函数的梯度下降。带momentum的SGD优化器有两个劣势，其一是收敛速度慢，其二是初始学习率的设置需要依靠大量的经验，然而如果初始学习率设置得当并且迭代轮数充足，该优化器也会在众多的优化器中脱颖而出，使得其在验证集上获得更高的准确率。一些自适应学习率的优化器如Adam、RMSProp等，收敛速度往往比较快，但是最终的收敛精度会稍差一些。如果追求更快的收敛速度，我们推荐使用这些自适应学习率的优化器，如果追求更高的收敛精度，我们推荐使用带momentum的SGD优化器。
Q: 当前主流的学习率下降策略有哪些？一般需要怎么选择呢？
A: 学习率是通过损失函数的梯度调整网络权重的超参数的速度。学习率越低，损失函数的变化速度就越慢。虽然使用低学习率可以确保不会错过任何局部极小值，但也意味着将花费更长的时间来进行收敛，特别是在被困在高原区域的情况下。在整个训练过程中，我们不能使用同样的学习率来更新权重，否则无法到达最优点，所以需要在训练过程中调整学习率的大小。在训练初始阶段，由于权重处于随机初始化的状态，损失函数相对容易进行梯度下降，所以可以设置一个较大的学习率。在训练后期，由于权重参数已经接近最优值，较大的学习率无法进一步寻找最优值，所以需要设置一个较小的学习率。在训练整个过程中，很多研究者使用的学习率下降方式是piecewise_decay，即阶梯式下降学习率，如在ResNet50标准的训练中，我们设置的初始学习率是0.1，每30epoch学习率下降到原来的1/10，一共迭代120epoch。除了piecewise_decay，很多研究者也提出了学习率的其他下降方式，如polynomial_decay（多项式下降）、exponential_decay（指数下降）,cosine_decay（余弦下降）等，其中cosine_decay无需调整超参数，鲁棒性也比较高，所以成为现在提高模型精度首选的学习率下降方式。Cosine_decay和piecewise_decay的学习率变化曲线如下图所示，容易观察到，在整个训练过程中，cosine_decay都保持着较大的学习率，所以其收敛较为缓慢，但是最终的收敛效果较peicewise_decay更好一些。