[CS231N]Lecture_2:Image Classification Pipeline

GRF-Sunomikp31

已于 2022-09-06 01:26:15 修改

阅读量381

点赞数

分类专栏： CS231N 文章标签：机器学习人工智能 python

于 2022-07-24 17:38:28 首次发布

本文链接：https://blog.csdn.net/qq_44847636/article/details/125961747

版权

CS231N 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Notes

在这里插入图片描述

之前已经大致了解了计算机视觉和其发展历史，本节将深入了解这些算法，以及最大程度上知道这些算法是如何work的。

在这里插入图片描述

本节课所包含的内容**：K最邻近分类器、线性分类（SVM，Softmax）和两层的神经网络**，用来提取图像特征。

在这里插入图片描述

Numpy的使用使得可以 向量化操作。

在这里插入图片描述

Google Cloud提供了GPU的虚拟机。

在这里插入图片描述

图像分类是计算机视觉的核心任务。

在这里插入图片描述

图片是由数字矩阵组成的。 Semantic gap

算法需要对下面这些变化鲁棒,包括 : **摄像头视角改变 , 光照变化（Illumination） , 变形 , 遮挡 , 背景混乱 , 类内差异 ** etc

在这里插入图片描述

如何设计计算机处理这些富有挑战的问题？与人相比，计算机的优势就是处理起来特别快。

在这里插入图片描述

Input：Image，Output：class_label。

在这里插入图片描述

之前的研究者尝试写出一组硬编码的规则来识别不同的动物，但是这种方法不太好，一方面是因为很容易出错，另一方面是需要对每个识别的目标都提出一套规则。

在这里插入图片描述

所谓的Data-Driven Approach 是指 : 不去写具体分类规则来识别一只猫/鱼 ; 用网上的图片去训练model分类这些图片，机器会根据土坯van总结生成一个model识别出不同的目标。classifier : 分类器 ; 两个函数 , 训练函数（输入图片和label，输出model）和预测函数（输入model，识别图片）。

在这里插入图片描述

上面是最近邻的算法，核心思想：训练函数的目的是记录所有的数据和各自的标签 . 预测函数的目的是预测和训练图片最相似的标签

在这里插入图片描述

总共10类 , pixel : 32*32 。

在这里插入图片描述

最邻近分类器的类别效果，右图左边是输入，右边是输出最相近的图片，大部分是正确的但是还是有错误的。

在这里插入图片描述

上面最近邻的算法有个问题是：如何计算两张图片的相似程度。这里有一些函数可以计算：L1是曼哈顿距离 , Distance Metric 是为了比较两幅图的相近程度的方法 . 最后absolute代表取绝对值 .

在这里插入图片描述

这是最近邻分类器的完整代码，train函数只是记录所有图像，训练函数这里计算了L1的距离再所有图像中，输出最小的那张图片。

在这里插入图片描述

中间训练函数只存储数据

在这里插入图片描述

最近邻分类器 : 直接将需要预测的数据和训练数据比较 , 输出最近的label即可，使用Python和numpy的好处在于，仅仅一两行代码就能实现向量化的。

在这里插入图片描述

这里有一些问题，第一个问题是如果分类N个，训练和测试的速度多快：训练是线性的，预测也是线性的，需要和整个数据做对比，所以非常慢。

在这里插入图片描述

这种方法非常落后，因为**我们希望训练过程比较慢，而预测过程比较快。**因为训练过程是在数据中心中完成的，它可以担负起很大的计算量，从而训练出一个比较好的训练器；但是将测试model部署后，希望计算量很小，能够快速进行。

在这里插入图片描述

上图是最邻近的决策区域，2D的分割其实包含和能处理的信息是非常受限的。可以看到**中间的噪声点（来自train data的噪声点）**干扰了整个模型

在这里插入图片描述

由最邻近算法产生K邻近算法(KNN)，它不只是找最近的点，在距离上加权进行投票。 K=1相当于最邻近算法，所以最邻近相当于K邻近的一个特例。对噪声相对鲁棒

这里白色区域代表：这个区域没有获得KNN的投票。上图表示K越大，其实越平滑。

在这里插入图片描述

上图是KNN的效果，可以看到效果不是很好。 KNN相比与最邻近算法，其对噪声是鲁棒的。

在这里插入图片描述

KNN还有一个问题是距离函数怎么选择来表示不同图片的区别，**不同的距离函数会对你预测的空间里底层的几何或拓扑结构做出不同的假设。**L2其实是一个⚪，L1是一个方形，也就是说L1距离取决于坐标系，坐标系变换距离也会变化，但是L2距离不会随着坐标系的改变而变换。如果你的输入特征向量中的一些值有一些重要的意义，你可以选择L1距离，如果它只是某个空间中的一个通用向量，你不知道不同的数值代表什么意义，那么L2距离可能更合适一些。

KNN不仅可以处理图片数据，还可能处理文本、语音和各种各样的数据，不同的是你需要指定一个距离函数去衡量两句话之间的距离，不同的距离函数可以让你的model适配到各种各样的数据类型中去。

在这里插入图片描述

不同的距离函数其实由很大区别。

在这里插入图片描述

这里有一个网页的演示方法可以展示相关的效果。

在这里插入图片描述

对于算法本身有两个超参数需要你自己选择，K和距离函数。所以现在的问题是如何根据的问题和数据来选择这些超参数。它不能从数据中学习得到，需要认为手动设置。

在这里插入图片描述

最可能想到的是（不一定正确）：选择能对你的训练集给出最高准确率的超参数。这其实是一个很糟糕的想法，千万别这样做；

在这里插入图片描述

训练数据集和真实测试数据集的问题。你在上面选择的 “训练集给出最高准确率的超参数” 只会让它在已知数据集上表现很高的准确率，但是不能在未知的数据上表现同样的准确率，即我们关心的并不是拟合训练集，而是想让我们的分类器在训练集以外的数据上表现更好。

在这里插入图片描述

将数据集分为train data和test data，在train data上使用不同的超参数来训练算法，然后将训练好的分类器用在test data上选择一组在test data上表现最好的超参数。

这种方法也很糟糕，千万别这样做，因为这种方法表示选择了一组超参数，让model在这种test data上表现最好，但是无法代表在全新的未知数据上的表现。

在这里插入图片描述

最常见的将数据分为：train data，validation data ，test data。用大部分的数据作为train data，在训练集上用不同的超参数训练算法，在validation data上评估，然后选择一组在validation data上表现最后的超参数。最后将这组超参数咋test data上测试，得到最终的模型效果，即论文上的model数据。 很多最research的时候，可能在最后一刻写论文的时候才能拿到test data 。

在这里插入图片描述