欢迎关注我的个人微信公众号:小纸屑
图片分类是机器学习经典问题,也是深度学习声名鹊起之作。正是2012年AlexNet在图片分类竞赛ImageNet出乎寻常的性能,使得深度学习一夜爆红,方有今天人工智能的井喷之势。
由于深度学习在图片分类上极其成功,且代码简单,图片分类便成为深入学习入门学习任务。通常几行代码,就可以调起一个模型训练。由于太简单,导致大家对图片分类缺乏能够整体认识。
本文拟从问题定义、图片分类的粒度、常用数据集、评判标准和经典论文等角度,完整充分展现图片分类这个经典问题,让读者有个完整印象。
问题定义
图片分类的定义如下:
输入:一张图片
输出:图片类别
这里的图片类别是指图片内所包含物体的类别。
传统的图片分类中,一张图片只包含一个类别物体的一个或多个实例。多标签图片分类中,一张图片一般包含多个类别物体的一个或多个实例(如多标签猫狗图片分类,大部分照片不但包含猫,还同时包含狗)。
我们这里只讲传统的图片分类。以下是几个样例:
输入上述图片,正确的输出应该是类别9(图片来自数据集MNIST