这是cs231n的课程作业,通过在网上寻找的各个代码解析以及自己运行代码后,对于KNN特征提取有了更加深刻的了解,也对python语言有了初步的认识。
在之前的课程也对KNN算法简单介绍过,KNN算法比较简单:在最近的K个样本中选择概率最大的作为测试的值(需要进行距离判断,可以用欧氏距离、曼哈顿距离等距离度量方法)。更具体的可参考http://blog.csdn.net/zhyh1435589631/article/details/53875182
下面进行具体的knn 调用程序 代码分析:
1、data_utils 载入数据集
这里选用的数据集是 cifar-10 数据集 http://www.cs.toronto.edu/~kriz/cifar.html
简单介绍下cifar-10 数据集:
①cifar-10 数据集包含60000个32*32的彩色图像,共有10类,每类有6000个图像。其中包含50000个训练图像和10000个测试图像。 数据集分为5个训练块和1个测试块,每个块有10000个图像。测试块是从每类随机选出的1000个图像组成的。而训练块以随机的顺序由剩下的这些图像组成,但对于同一类,某一些训练块可能包含比其它块更多的图像,但总体里说训练块从每一类中都取出了5000个图像(也就是说训练块取图像的时候是不均匀的)。
②data——1个10000*3072大小的uint8数组。数组的每行存储1张32*32的图像。第1个1024包含红色通道值,下1个包含绿色,最后的1024包含蓝色。 我觉得[1]中的代码:X = X.reshape(10000, 3, 32, 32)括号里的数字就是这个意思
labels——1个10000数的范围为0~9的列表。索引i的数值表示数组data中第i个图像的标签。
③数据集中包含另外1个叫batches.meta的文件。它也包含1个Python字典对象。有如下列元素:
label_names——1个10元素的列表,给labels中的数值标签以有意义的名称。例如,label_names[0] == “airplane”, label_names[1] == “automobile”等。
载入代码:
输出相应的训练集和测试集数据 Xtr, Ytr, Xte, Yte(training,test)
2、 载入数据集的调用
方框中的是代码,下面的是运行结果
这一部分程序主要就是调用数据,设置图像的大小等。输出训练集和测试集数据的大小性质,data shape的第一个数字是训练集/测试集中图像数量,第二和第三个表示图像的像素大小,第四个数字表示通道值(我觉得是这样)
3、显示数据集的一部分信息
第一行代码定义了各类的名称,第二行是类的数量,第三行设置了每类显示多少样本(这里是每类显示7个样本),然后for循环是为了完成显示选中样本的功能,enumerate()是枚举函数,返回索引和值,比如for y, cls in enumerate(classes)运行后y=1,2……;cls='plane', 'car'……;numpy.flatnonzero()函数可以用来返回某个特定元素的位置,idxs应该是选中的样本在训练集中的的位置值,plt_idx是为了计算要显示的图像在输出时显示的位置。不显示坐标,并且在第一行显示类的名称。
4、调整数据集大小