图像的线性分类器（感知机、SVM、Softmax）

最新推荐文章于 2023-05-19 22:49:22 发布

VIP文章独孤呆博

最新推荐文章于 2023-05-19 22:49:22 发布

阅读量4.2k

点赞数 4

分类专栏： CS231n_课程笔记_完结基于深度学习的图像分类文章标签：线性分类器感知机 SVM Softmax 损失函数

本文链接：https://blog.csdn.net/dugudaibo/article/details/78310986

版权

本文主要内容为 CS231n 课程的学习笔记，主要参考学习视频和对应的课程笔记翻译 ,感谢各位前辈对于深度学习的辛苦付出。在这里我主要记录下自己觉得重要的内容以及一些相关的想法，希望能与大家多多交流~

1. 线性分类器简介

这部分所介绍的线性分类器，实际上指的是感知机，并且实际上是一个单层的感知机。对于感知机的部分，在之前的《<神经网路与深度学习>读书笔记》中已经有所介绍了，在这篇文章的第一部分我简单的介绍了感知机。那里的感知机只有一个输出 $z$ ，而这里的感知机虽然也是一层的感知机，但是输出却比之前的笔记中介绍的要多，具体有多少个输出单元，根据数据的类别数确定。感兴趣的小伙伴可以点击链接跳转至那部分进行温习，本文的余下部分将不会对已经总过的知识再次总结。

在这里认为线性分类器（即感知机）主要有两部分组成：一个是评分函数（score function），它是原始图像数据到类别分值的映射。另一个是损失函数（loss function），它是用来量化预测分类标签的得分与真实标签之间一致性的。该方法可转化为一个最优化问题，在最优化过程中，将通过更新评分函数的参数来最小化损失函数值。

其中需要注意的是，这里所谓的评分函数实际上就是计算的过程（落到具体细节就是权重矩阵 W）。下面我们将从评分函数与损失函数两个方面先进行介绍，在介绍两种具体的分类器，SVM 与 Softmax。

2. 评分函数

2.1 评分函数的定义

评分函数将图像的像素值映射为各个分类类别的得分，得分高低代表图像属于该类别的可能性高低。在假设有一个包含很多图像的训练集 $x_i\in R^D$ ，每个图像都有一个对应的分类标签 $y_i$ 。这里 $i=1,2...N$ 并且 $y_i\in 1...K$ 。这就是说，我们有 N 个图像样例，每个图像的维度是 D，共有 K 种不同的分类。举例来说，在CIFAR-10中，我们有一个N=50000的训练集，每个图像有D=32x32x3=3072个像素，而K=10，这是因为图片被分为10个不同的类别（狗，猫，汽车等）。

现定义评分函数如下

f (x i, W, b) = W x i + b

$\displaystyle f(x_i,W,b)=Wx_i+b$
在上面的公式中，假设每个图像数据都被拉长为一个长度为D的列向量，大小为[D x 1]。其中大小为[K x D]的矩阵W和大小为[K x 1]列向量b为该函数的参数（parameters）。还是以CIFAR-10为例，x_i就包含了第i个图像的所有像素信息，这些信息被拉成为一个[3072 x 1]的列向量，W大小为[10x3072]，b的大小为[10x1]。因此，3072个数字（原始像素数值）输入函数，函数输出10个数字（不同分类得到的分值）。参数W被称为权重（weights）。b被称为偏差向量（bias vector），这是因为它影响输出数值，但是并不和原始数据

xi $x_i$ 产生关联。

对于评价函数有以下几点需要注意：

1
一个单独的矩阵乘法 $Wx_i$ 就高效地并行评估10个不同的分类器（每个分类器针对一个分类），其中每个类的分类器就是W的一个行向量。
2
输入数据 $(x_i,y_i)$ 是给定且不可改变的，但参数W和b是可控制改变的。我们的目标就是通过设置这些参数，使得计算出来的分类分值情况和训练集中图像数据的真实类别标签相符。
3
该方法的一个优势是训练数据是用来学习到参数W和b的，一旦训练完成，训练数据就可以丢弃，留下学习到的参数即可。这是因为一个测试图像可以简单地输入函数，并基于计算出的分类分值来进行分类。
4
最后，注意只需要做一个矩阵乘法和一个矩阵加法就能对一个测试数据分类，这比k-NN中将测试图像和所有训练数据做比较的方法快多了。

2.2 如何理解评分函数

评分函数的工作流程实际可以具体化为如下的形式

图 1. 评价函数工作流程可视化

为了便于可视化，假设图像只有4个像素（都是黑白像素，这里不考虑RGB通道），有3个分类（红色代表猫，绿色代表狗，蓝色代表船，注意，这里的红、绿和蓝3种颜色仅代表分类，和RGB通道没有关系）。首先将图像像素拉伸为一个列向量，与W进行矩阵乘，然后得到各个分类的分值。需要注意的是，这个W一点也不好：猫分类的分值非常低。从上图来看，算法倒是觉得这个图像是一只狗。根据我们对权重设置的值，对于图像中的某些位置的某些颜色，函数表现出喜好或者厌恶（根据每个权重的符号而定）。

2.2.1 将图像看做高维度的点

既然图像被伸展成为了一个高维度的列向量，那么我们可以把图像看做这个高维度空间中的一个点（即每张图像是3072维空间中的一个点）。整个数据集就是一个点的集合，每个点都带有1个分类标签。

既然定义每个分类类别的分值是权重和图像的矩阵乘，那么每个分类类别的分数就是这个空间中的一个线性函数的函数值。我们没办法可视化3072维空间中的线性函数，但假设把这些维度挤压到二维，那么就可以看看这些分类器在做什么了

图 2. 图像空间的示意图

其中每个图像是一个点，有3个分类器。以红色的汽车分类器为例，红线表示空间中汽车分类分数为0的点的集合，红色的箭头表示分值上升的方向。所有红线右边的点的分数值均为正，且线性升高。红线左边的点分值为负，且线性降低。

从上面可以看到，W的每一行都是一个分类类别的分类器。对于这些数字的几何解释是：如果改变其中一行的数字，会看见分类器在空间中对应的直线开始向着不同方向旋转。而偏差b，则允许分类器对应的直线平移。需要注意的是，如果没有偏差，无论权重如何，在 $x_i=0$ 时分类分值始终为0。这样所有分类器的线都不得不穿过原点。

2.2.2 将线性分类器看做模板匹配

关于权重W的另一个解释是它的每一行对应着一个分类的模板（有时候也叫作原型）。一张图像对应不同分类的得分，是通过使用内积（也叫点积）来比较图像和模板，然后找到和哪个模板最相似。从这个角度来看，线性分类器就是在利用学习到的模板，针对图像做模板匹配。从另一个角度来看，可以认为还是在高效地使用k-NN，不同的是我们没有使用所有的训练集的图像来比较，而是每个类别只用了一张图片（这张图片是我们学习到的，而不是训练集中的某一张），而且我们会使用（负）内积来计算向量间的距离，而不是使用L1或者L2距离。

图 3. 线性分类器通过学习得到的模板

将课程进度快进一点。这里展示的是以CIFAR-10为训练集，图 3 为学习结束后的权重的例子。注意，船的模板如期望的那样有很多蓝色像素。如果图像是一艘船行驶在大海上，那么这个模板利用内积计算图像将给出很高的分数。

可以看到马的模板看起来似乎是两个头的马，这是因为训练集中的马的图像中马头朝向各有左右造成的。线性分类器将这两种情况融合到一起了。类似的，汽车的模板看起来也是将几个不同的模型融合到了一个模板中，并以此来分辨不同方向不同颜色的汽车。这个模板上的车是红色的，这是因为CIFAR-10中训练集的车大多是红色的。线性分类器对于不同颜色的车的分类能力是很弱的，但是后面可以看到神经网络是可以完成这一任务的。神经网络可以在它的隐藏层中实现中间神经元来探测不同种类的车（比如绿色车头向左，蓝色车头向前等）。而下一层的神经元通过计算不同的汽车探测器的权重和，将这些合并为一个更精确的汽车分类分值。