一、基本介绍
图像分类
作用:给定一张图片,让计算机识别出图片中的物体是什么。
原理:计算机能看到的只是一个个像素的数值,对于一个RGB图像来说,假设图像的尺寸为3232,那么机器看到的就是一个形状为332*32的矩阵,那么机器的任务就是寻找其中的函数关系,这个函数关系可以将这些像素映射到一个具体的类别
机器学习
一般规则:收集数据→定义模型→训练→预测
但是再实践中发现机器学习有算法效率低下的问题,故只能用来处理一些数据量较小的情况,若数据过于复杂,机器学习就难以承受,故后面逐渐由特征工程转变为特征学习
后来随着卷积神经网络的不断迭代和Transformer的出现,特征学习进一步发展为层次化的特征实现
二、卷积神经网络
AlexNet(2012)
Going Deeper(2012~2014)
VGG(2014)
GgggLeNet(Inception v1,2014)
精度退化问题
图像处理技术不断发展,模型层数增加到一定程度之后,正确率反而出现了下降
残差学习
深层网络中,常规训练已经无法满足模型的要求,故使用卷积层拟合一个近似的恒等映射,优化浅层网络。让新增加的层拟合浅层与深层网络之间的差异,更容易学习;梯度可以直接回传到浅层网络监督浅层网络的学习;不引入额外参数,让参数工作更高效
三、图像分类模型发展
四、MMClassification简介
命令:
推理工具:单张图像推理、测试(单卡&多机多卡)
Getting Started — MMClassification 0.25.0 documentation
训练工具:单卡训练、多卡训练(单机&多机)、任务调度器、从checkpoint恢复训练
Getting Started — MMClassification 0.25.0 documentation
使用MIN工具实现训练和测试
MIM为所有OpenMMLab工具提供了统一的命令行接口
流程:下载配置文件和预训练权重→训练→测试