深度学习与计算机视觉系列(2)_图像分类与KNN

最新推荐文章于 2025-09-25 17:30:57 发布

原创

最新推荐文章于 2025-09-25 17:30:57 发布 · 5.3w 阅读

139 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #计算机 #图片分类 #KNN

本文介绍了图像分类问题的难点及机器学习解决图像分类的基本流程，重点讲解了最近邻分类器（KNN）的工作原理，包括CIFAR-10数据集的使用、不同距离准则的影响，以及KNN的优缺点。通过K折交叉验证选择最佳的K值，探讨了KNN在实际应用中的时间效率问题，并展示了像素级别的距离并不一定能反映图像内容的相似性。

作者：寒小阳
时间：2015年11月。
出处：http://blog.csdn.net/han_xiaoyang/article/details/49949535
声明：版权所有，转载请注明出处，谢谢

1. 图像分类问题

这是人每天自然而然会做的事情，普通到大部分时候，我们都感知不到我们在完成一个个这样的任务。早晨起床洗漱，你要看看洗漱台一堆东西中哪个是杯子，哪个是你的牙刷；吃早餐的时候你要分辨食物和碗碟…
抽象一下，对于一张输入的图片，要判定它属于给定的一些标签/类别中的哪一个。看似很简单的一个问题，这么多年却一直是计算机视觉的一个核心问题，应用场景也很多。它的重要性还体现在，其实其他的一些计算机视觉的问题(比如说物体定位和识别、图像内容分割等)都可以基于它去完成。

咱们举个例子从机器学习的角度描述一下这个问题^_^

计算机拿到一张图片(如下图所示)，然后需要给出它对应{猫，狗，帽子，杯子}4类的概率。人类是灰常牛逼的生物，我们一瞥就知道这货是猫。然而对计算机而言，他们是没办法像人一样『看』到整张图片的。对它而言，这是一个3维的大矩阵，包含248*400个像素点，每个像素点又有红绿蓝(RGB)3个颜色通道的值，每个值在0(黑)-255(白)之间，计算机就需要根据这248*400*3=297600个数值去判定这货是『猫』

猫图像=>矩阵

1.1 图像识别的难点

图像识别看似很直接。但实际上包含很多挑战，人类可是经过数亿年的进化才获得如此强大的大脑，对于各种物体有着精准的视觉理解力。总体而言，我们想『教』会计算机去认识一类图，会有下面这样一些困难：

视角不同，每个事物旋转或者侧视最后的构图都完全不同
尺寸大小不统一，相同内容的图片也可大可小
变形，很多东西处于特殊的情形下，会有特殊的摆放和形状
光影等干扰/幻象
背景干扰
同类内的差异(比如椅子有靠椅/吧椅/餐椅/躺椅…)

图像面临的挑战

1.2 识别的途径

首先，大家想想就知道，这个算法并不像『对一个数组排序』或者『求有向图的最短路径』，我们没办法提前制定一个流程和规则去解决。定义『猫』这种动物本身就是一件很难的事情了，更不要说去定义一只猫在图像上的固定表现形式。所以我们寄希望于机器学习，使用『Data-driven approach/数据驱动法』来做做尝试。简单说来，就是对于每个类别，我们都找一定量的图片数据，『喂』给计算机，让它自己去『学习和总结』每一类的图片的特点。对了，这个过程和小盆友学习新鲜事物是一样一样的。『喂』给计算机学习的图片数据就和下图的猫/狗/杯子/帽子一样：

Data-driven approach

1.3 机器学习解决图像分类的流程/Pipeline

整体的流程和普通机器学习完全一致，简单说来，也就下面三步：

输入：我们的给定K个类别的N张图片，作为计算机学习的训练集
学习：让计算机逐张图片地『观察』和『学习』
评估：就像我们上学学了东西要考试检测一样，我们也得考考计算机学得如何，于是我们给定一些计算机不知道类别的图片让它判别，然后再比对我们已知的正确答案。

2. 最近邻分类器(Nearest Neighbor Classifier)

先从简单的方法开始说，先提一提最近邻分类器/Nearest Neighbor Classifier，不过事先申明，它和深度学习中的卷积神经网/Convolutional Neural Networks其实一点关系都没有，我们只是从基础到前沿一点一点推进，最近邻是图像识别一个相对简单和基础的实现方式。