斯坦福CS231n作业代码（汉化）Assignment 1 - Q1

最新推荐文章于 2024-04-25 09:50:08 发布

BigDataDigest

最新推荐文章于 2024-04-25 09:50:08 发布

阅读量6.4k

点赞数 11

分类专栏：公开课作业文章标签：斯坦福人工智能李飞飞

本文链接：https://blog.csdn.net/BigDataDigest/article/details/79082077

版权

本文介绍了斯坦福大学CS231n课程作业中关于k-Nearest Neighbor (kNN) 的实践。通过加载和分析CIFAR-10数据集，探讨了kNN分类器的实现，包括计算距离的双层循环、单层循环和完全向量化方法，并比较了它们的效率。文章还涉及到交叉验证来选择最佳的k值，以提高分类准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

assignment Q1-1 k-Nearest Neighbor (kNN) exercise

编写：郭承坤 观自在降魔 Fanli SlyneD
校对：毛丽
总校对与审核：寒小阳

代码环境

python3.6.1(anaconda4.4.0) && ubuntu16.04 测试通过

作业内容

kNN分类器是一种非常简单粗暴的分类器，它包含两个步骤：

训练。
读取训练数据并存储。

测试。
对于每一张测试图像，kNN把它与训练集中的每一张图像计算距离，找出距离最近的ｋ张图像．这ｋ张图像里，占多数的标签类别，就是测试图像的类别。
计算图像的距离有两种方式，分别是l1距离和l2距离．具体使用哪种距离度量呢？这就需要我们进一步探索啦！

k的取值通过交叉验证得到。
对于kNN算法，k值的选择十分重要．如图所示，较小的k值容易受到噪声的干扰，较大的k值会导致边界上样本的分类有歧义．

为了得到较为合适的ｋ值，我们使用交叉验证的方法．

———开始写作业的分割线————

notebook的一些预备代码

import random
import numpy as np
from cs231n.data_utils import load_CIFAR10
import matplotlib.pyplot as plt

from __future__ import print_function
from past.builtins import xrange　　　# 补充了一个库

#这里有一个小技巧可以让matplotlib画的图出现在notebook页面上，而不是新建一个画图窗口．
%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # 设置默认的绘图窗口大小
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

#另一个小技巧，可以使　notebook　自动重载外部　python 模块．[点击此处查看详情][4]
#也就是说，当从外部文件引入的函数被修改之后，在notebook中调用这个函数，得到的被改过的函数．
%load_ext autoreload
%autoreload 2

加载　CIFAR-10 原始数据

# 这里加载数据的代码在 data_utils.py 中，会将data_batch_1到5的数据作为训练集，test_batch作为测试集
cifar10_dir = 'cs231n/datasets/cifar-10-batches-py'
X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir)

# 为了对数据有一个认识，打印出训练集和测试集的大小 
print('Training data shape: ', X_train.shape)
print('Training labels shape: ', y_train.shape)
print('Test data shape: ', X_test.shape)
print('Test labels shape: ', y_test.shape)

输出：

Training data shape:  (50000, 32, 32, 3)
Training labels shape:  (50000,)
Test data shape:  (10000, 32, 32, 3)
Test labels shape:  (10000,)

看看数据集中的样本

这里我们将训练集中每一类的样本都随机挑出几个进行展示

classes = ['plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
num_classes = len(classes)
samples_per_class = 7
for y, cls in enumerate(classes):
    idxs = np.flatnonzero(y_train == y)
    idxs = np.random.choice(idxs, samples_per_class, replace=False)
    for i, idx in enumerate(idxs):
        plt_idx = i * num_classes + y + 1
        plt.subplot(samples_per_class, num_classes, plt_idx)
        plt.imshow(X_train[idx].astype('uint8'))
        plt.axis('off')
        if i == 0:
            plt.title(cls)
plt.show()

输出

这就是随机选出的图片样本啦！

为了更高效地运行我们的代码，这里取出一个子集进行后面的练习

num_training = 5000
mask = list(range(num_training))
X_train = X_train[mask]
y_train = y_train[mask]

num_test = 500
mask = list(range(num_test))
X_test = X_test[mask]
y_test = y_test[mask]

## 将图像数据转置成二维的

X_train = np.reshape(X_train, (X_train.shape[0], -1))
X_test = np.reshape(X_test, (X_test.shape[0], -1))
print(X_train.shape, X_test.shape)

输出：

(5000, 3072) (500, 3072)

创建kNN分类器对象

记住 kNN 分类器不进行操作，只是将训练数据进行了简单的存储

from cs231n.classifiers import KNearestNeighbor
classifier = KNearestNeighbor()
classifier.train(X_train, y_train)

现在我们可以使用kNN分类器对测试数据进行分类了。我们可以将测试过程分为以下两步：

首先，我们需要计算测试样本到所有训练样本的距离。
得到距离矩阵后，找出离测试样本最近的k个训练样本，选择出现次数最多的类别作为测试样本的类别

让我们从计算距离矩阵开始。如果训练样本有Ntr个，测试样本有Nte个，则距离矩阵应该是个　

最低0.47元/天解锁文章