cs231n assigment1 KNN部分代码运行结果及分析

这是cs231n的课程作业,通过在网上寻找的各个代码解析以及自己运行代码后,对于KNN特征提取有了更加深刻的了解,也对python语言有了初步的认识。

在之前的课程也对KNN算法简单介绍过,KNN算法比较简单:在最近的K个样本中选择概率最大的作为测试的值(需要进行距离判断,可以用欧氏距离、曼哈顿距离等距离度量方法)。更具体的可参考http://blog.csdn.net/zhyh1435589631/article/details/53875182

下面进行具体的knn 调用程序 代码分析:

1、data_utils 载入数据集
这里选用的数据集是 cifar-10 数据集 http://www.cs.toronto.edu/~kriz/cifar.html

简单介绍下cifar-10 数据集:

cifar-10 数据集包含60000个32*32的彩色图像,共有10类,每类有6000个图像。其中包含50000个训练图像和10000个测试图像。 数据集分为5个训练块和1个测试块,每个块有10000个图像。测试块是从每类随机选出的1000个图像组成的。而训练块以随机的顺序由剩下的这些图像组成,但对于同一类,某一些训练块可能包含比其它块更多的图像,但总体里说训练块从每一类中都取出了5000个图像(也就是说训练块取图像的时候是不均匀的)。 

②data——1个10000*3072大小的uint8数组。数组的每行存储1张32*32的图像。第1个1024包含红色通道值,下1个包含绿色,最后的1024包含蓝色。 我觉得[1]中的代码:X = X.reshape(10000, 3, 32, 32)括号里的数字就是这个意思
labels——1个10000数的范围为0~9的列表。索引i的数值表示数组data中第i个图像的标签。 
③数据集中包含另外1个叫batches.meta的文件。它也包含1个Python字典对象。有如下列元素: 
label_names——1个10元素的列表,给labels中的数值标签以有意义的名称。例如,label_names[0] == “airplane”, label_names[1] == “automobile”等。
载入代码: 
输出相应的训练集和测试集数据 Xtr, Ytr, Xte, Yte(training,test)


2、 载入数据集的调用


方框中的是代码,下面的是运行结果

这一部分程序主要就是调用数据,设置图像的大小等。输出训练集和测试集数据的大小性质,data shape的第一个数字是训练集/测试集中图像数量,第二和第三个表示图像的像素大小,第四个数字表示通道值(我觉得是这样)

3、显示数据集的一部分信息


第一行代码定义了各类的名称,第二行是类的数量,第三行设置了每类显示多少样本(这里是每类显示7个样本),然后for循环是为了完成显示选中样本的功能,enumerate()是枚举函数,返回索引和值,比如for y, cls in enumerate(classes)运行后y=1,2……;cls='plane', 'car'……;numpy.flatnonzero()函数可以用来返回某个特定元素的位置,idxs应该是选中的样本在训练集中的的位置值,plt_idx是为了计算要显示的图像在输出时显示的位置。不显示坐标,并且在第一行显示类的名称。

4、调整数据集大小


5、使用KNN


KNN训练需要用到KNearestNeighbor 类。可以将训练分成两个步骤(1)计算所有训练样本和测试样本之间的距离(2)对每个测试样本找k个最近的样本,从中选出投票最多的那个类别。

6、knn 本质实现部分的代码

这部分代码是kNN训练重点


训练分类器,KNN分类器计算的是欧氏距离,输入X和y,X是包含num_train个D维训练数据的数组,y是包含训练标签的数组


预测数据,输入测试数据数组X,k的数值(选择用来投票的最近邻居的个数),循环阶数num_loops,返回包含测试数据对应的预测标签的数组y,如果循环阶数是0,就调用compute_distances_no_loops函数来计算距离,如果循环阶数是1,就调用compute_distances_one_loops函数,循环阶数是2,就调用compute_distances_two_loops函数,否则就输出错误信息。


这个函数主要通过两层 for 循环对计算测试集与训练集数据之间的欧式距离。这里计算欧氏距离用到了dot()函数。dot(a, b),对于二维数组,它相当于矩阵乘法;而一维数组是向量的内积(无复共轭); 对于N维,它是a的最后一个维度和b的倒数第二维的乘积。dot(a, b)[i,j,k,m] = sum(a[i,j,:] * b[k,:,m])

参考https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html

所以上面的dists[i,j]等价于np.sqrt(np.sum(np.square(self.X_train[j,:] - X[i,:])))


本质上这里填入的代码和 上一节中的是一致的, 只是多了一个 axis = 1 指定方向


这部分代码有一定难度,参考http://blog.csdn.net/geekmanong/article/details/51524402和http://blog.csdn.net/zhyh1435589631/article/details/54236643


所以dists = np.sqrt(self.getNormMatrix(X, num_train).T + self.getNormMatrix(self.X_train, num_test) - 2 * np.dot(X, self.X_train.T))



这部分实现的功能是根据计算得到的距离关系, 挑选 K 个数据组成选民, 进行党派选举。

其中argsort函数返回的是数组值从小到大的索引值,即对于一维数组来说,第一个元素是原数组中数值最小的元素的索引(从0开始排列),二维数组可以根据自己的意愿确定排列方向。

如 >>> x = np.array([3, 1, 2])
    >>> np.argsort(x)
    array([1, 2, 0])

7、测试两层循环的距离算法


测试的图片为500张,训练集为5000

8、用图片的形式显示距离


9、设置k=1时使用KNN进行训练


得到正确率为0.274,500个图像对了137

10、修改k参数后使用KNN进行训练

k=5时,正确率为0.278

11、用一层循环的距离算法进行训练


调用之前一层循环的距离算法进行KNN训练,发现与两层循环得到的欧氏距离矩阵一致

12、用无循环的距离算法进行训练


调用之前无循环的距离算法进行KNN训练,发现与两层循环得到的欧氏距离矩阵一致

13、查看三种距离计算方法的使用时间


比较三种距离计算方法(无循环、一层循环和两层循环)所需要的时间,发现无循环的计算时间最短,其次是一层循环的,两层循环计算时间最长。说明循环非常耗费时间。

14、cross validation交叉验证

交叉验证实际上是将数据的训练集进行拆分, 分成多个组, 构成多个训练和测试集, 来筛选较好的超参数

比如说将训练集分为 5组数据(依次将 fold 1, 2 .. 5 作为训练集, 将剩余的数据作为验证集, 训练得到超参数)

先筛选不同的K





numpy.array_split函数用于把数组分成几份,默认axis=0(竖直),用法参考https://docs.scipy.org/doc/numpy/reference/generated/numpy.array_split.html

合并数组函数:numpy.vstack(垂直方向)和hstack(水平方向)

15、图形化显示

16、选取最好的k 进行训练


可以发现, 即使是最好情况下, KNN算法的识别准确率也很低,只有27.4%

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值