CS231N课程笔记学习一——图像分类

最新推荐文章于 2023-10-31 17:04:06 发布

兴安仓鼠

最新推荐文章于 2023-10-31 17:04:06 发布

阅读量277

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/lovelyzhou/article/details/108186996

版权

机器学习专栏收录该内容

31 篇文章 5 订阅

订阅专栏

不得不说，cs213n课程是真的难，开始小哥哥讲损失函数，回归模型，我还勉强跟上，后来小姐姐讲课，我真的——人傻了/(ㄒoㄒ)/~~，但是斯坦福大学的课程不能不上啊（尽管对牛弹琴），所以在网上寻找资源，开始“自学”。。。

1.图像分类

图像分类问题，就是已有固定的分类标签集合，然后对于输入的图像，从分类标签集合中找出一个分类标签，最后把分类标签分配给该输入图像。计算机视觉领域中很多看似不同的问题（比如物体检测和分割），都可以被归结为图像分类问题。
一个图片例子：
在这里插入图片描述
猫的图像大小是宽248像素，高400像素，有3个颜色通道，分别是红、绿和蓝（简称RGB）。如此，该图像就包含了248X400X3=297600个数字，每个数字都是在范围0-255之间的整型，其中0表示全黑，255表示全白。我们的任务就是把这些上百万的数字变成一个简单的标签，比如“猫”。
图像分类中的困难
视角变化（Viewpoint variation）：同一个物体，摄像机可以从多个角度来展现。
大小变化（Scale variation）：物体可视的大小通常是会变化的（不仅是在图片中，在真实世界中大小也是变化的）。
形变（Deformation）：很多东西的形状并非一成不变，会有很大变化。
遮挡（Occlusion）：目标物体可能被挡住。有时候只有物体的一小部分（可以小到几个像素）是可见的。
光照条件（Illumination conditions）：在像素层面上，光照的影响非常大。
背景干扰（Background clutter）：物体可能混入背景之中，使之难以被辨认。
类内差异（Intra-class variation）：一类物体的个体之间的外形差异很大，比如椅子。这一类物体有许多不同的对象，每个都有自己的外形。

2.图片分类流程

图像分类就是输入一个元素为像素值的数组，然后给它分配一个分类标签。完整流程如下：

输入：输入是包含N个图像的集合，每个图像的标签是K种分类标签中的一种。这个集合称为训练集。
学习：这一步的任务是使用训练集来学习每个类到底长什么样。一般该步骤叫做训练分类器或者学习一个模型。
评价：让分类器来预测它未曾见过的图像的分类标签，并以此来评价分类器的质量。我们会把分类器预测的标签和图像真正的分类标签对比。毫无疑问，分类器预测的分类标签和图像真正的分类标签如果一致，那就是好事，这样的情况越多越好。

3.Nearest Neighbor分类器

就是将训练集和测试集两张图片先转化为两个向量I1和I2，然后计算他们的L1距离：
在这里插入图片描述
这里的求和是针对所有的像素。下面是整个比较流程的图例：

两张图片使用L1距离来进行比较。逐个像素求差值，然后将所有差值加起来得到一个数值。如果两张图片一模一样，那么L1距离为0，但是如果两张图片很是不同，那L1值将会非常大。
代码实现

Xtr, Ytr, Xte, Yte = load_CIFAR10('data/cifar10/') # a magic function we provide
# flatten out all images to be one-dimensional
Xtr_rows = Xtr.reshape(Xtr.shape[0], 32 * 32 * 3) # Xtr_rows becomes 50000 x 3072
Xte_rows = Xte.reshape(Xte.shape[0], 32 * 32 * 3) # Xte_rows becomes 10000 x 3072

训练并评价一个分类器

nn = NearestNeighbor() # create a Nearest Neighbor classifier class
nn.train(Xtr_rows, Ytr) # train the classifier on the training images and labels
Yte_predict = nn.predict(Xte_rows) # predict labels on the test images
# and now print the classification accuracy, which is the average number
# of examples that are correctly predicted (i.e. label matches)
print 'accuracy: %f' % ( np.mean(Yte_predict == Yte) )

结果：此模型准确率很低，不适用

4.k-Nearest Neighbor分类器

当k=1的时候，k-Nearest Neighbor分类器就是Nearest Neighbor分类器。更高的k值可以让分类的效果更平滑，使得分类器对于异常值更有抵抗力。

5.用于超参数调优的验证集

k-NN分类器需要设定k值，那么选择哪个k值最合适的呢？我们可以选择不同的距离函数，比如L1范数和L2范数等，那么选哪个好？还有不少选择我们甚至连考虑都没有考虑到（比如：点积）。所有这些选择，被称为超参数（hyperparameter）。在基于数据进行学习的机器学习算法设计中，超参数是很常见的。一般说来，这些超参数具体怎么设置或取值并不是显而易见的。

我们可以尝试不同的值，但这样做的时候要非常细心。特别注意：决不能使用测试集来进行调优当你在设计机器学习算法的时候，应该把测试集看做非常珍贵的资源，不到最后一步，绝不使用它。如果你使用测试集来调优，而且算法看起来效果不错，那么真正的危险在于：算法实际部署后，性能可能会远低于预期。这种情况，称之为算法对测试集过拟合。从另一个角度来说，如果使用测试集来调优，实际上就是把测试集当做训练集，由测试集训练出来的算法再跑测试集，自然性能看起来会很好。这其实是过于乐观了，实际部署起来效果就会差很多。所以，最终测试的时候再使用测试集，可以很好地近似度量你所设计的分类器的泛化性能。
测试数据集只使用一次，即在训练完成后评价最终的模型时使用。
我们可以从训练集中取出一部分数据用来调优，我们称之为验证集（validation set）。把训练集分成训练集和验证集。使用验证集来对所有超参数调优。最后只在测试集上跑一次并报告结果。
调优代码

# assume we have Xtr_rows, Ytr, Xte_rows, Yte as before
# recall Xtr_rows is 50,000 x 3072 matrix
Xval_rows = Xtr_rows[:1000, :] # take first 1000 for validation
Yval = Ytr[:1000]
Xtr_rows = Xtr_rows[1000:, :] # keep last 49,000 for train
Ytr = Ytr[1000:]

# find hyperparameters that work best on the validation set
validation_accuracies = []
for k in [1, 3, 5, 10, 20, 50, 100]:

  # use a particular value of k and evaluation on validation data
  nn = NearestNeighbor()
  nn.train(Xtr_rows, Ytr)
  # here we assume a modified NearestNeighbor class that can take a k as input
  Yval_predict = nn.predict(Xval_rows, k = k)
  acc = np.mean(Yval_predict == Yval)
  print 'accuracy: %f' % (acc,)

  # keep track of what works on the validation set
  validation_accuracies.append((k, acc))

程序结束后，我们会作图分析出哪个k值表现最好，然后用这个k值来跑真正的测试集，并作出对算法的评价。

把训练集分成训练集和验证集。使用验证集来对所有超参数调优。最后只在测试集上跑一次并报告结果。

6.交叉验证

有时候，训练集数量较小（因此验证集的数量更小），人们会使用一种被称为交叉验证的方法，这种方法更加复杂些。比如：将训练集平均分成5份，其中4份用来训练，1份用来验证。然后我们循环着取其中4份来训练，其中1份来验证，最后取所有5次验证结果的平均值作为算法验证结果。

7.knn实际应用步骤

①预处理数据：对数据中的特征进行归一化（normalize），让其具有零平均值（zero mean）和单位方差（unit variance）。
②如果数据是高维数据，考虑使用降维方法，比如PCA(wiki ref, CS229ref, blog ref)或随机投影。
③将数据随机分入训练集和验证集。按照一般规律，70%-90% 数据作为训练集。这个比例根据算法中有多少超参数，以及这些超参数对于算法的预期影响来决定。如果需要预测的超参数很多，那么就应该使用更大的验证集来有效地估计它们。如果担心验证集数量不够，那么就尝试交叉验证方法。如果计算资源足够，使用交叉验证总是更加安全的（份数越多，效果越好，也更耗费计算资源）。
④在验证集上调优，尝试足够多的k值，尝试L1和L2两种范数计算方式。
如果分类器跑得太慢，尝试使用Approximate Nearest Neighbor库（比如FLANN）来加速这个过程，其代价是降低一些准确率。
⑤对最优的超参数做记录。

参考资料： https://zhuanlan.zhihu.com/p/20894041?refer=intelligentunit https://zhuanlan.zhihu.com/p/20900216?refer=intelligentunit

兴安仓鼠

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS231N课程笔记学习一——图像分类

不得不说，cs213n课程是真的难，开始小哥哥讲损失函数，回归模型，我还勉强跟上，后来小姐姐讲课，我真的——人傻了/(ㄒoㄒ)/~~，但是斯坦福大学的课程不能不上啊（尽管对牛弹琴），所以在网上寻找资源，开始“自学”。。。1.图像分类图像分类问题，就是已有固定的分类标签集合，然后对于输入的图像，从分类标签集合中找出一个分类标签，最后把分类标签分配给该输入图像。计算机视觉领域中很多看似不同的问题（比如物体检测和分割），都可以被归结为图像分类问题。一个图片例子：猫的图像大小是宽248像素，高400像素，
复制链接

扫一扫

专栏目录