4、线性分类: SVM, Softmax

4、线性分类上一课最我们介绍了图像分类的问题,任务是从一个固定的类别集合中选一个分配给待识别的图像。最后,我们描述了k-近邻(KNN)分类器,它通过将待标记的图像与训练集中已经标记好的图像进行比较来标记图像。KNN有许多缺点:分类器必须记住所有的训练数据,并将其存储起来,以备将来与测试数据进行比较。这是空间低效的,因为数据集的大小可能是千兆字节。 分类测试图像是昂贵的,因为它需要与所有训...
摘要由CSDN通过智能技术生成

4、线性分类

上一课最我们介绍了图像分类的问题,任务是从一个固定的类别集合中选一个分配给待识别的图像。最后,我们描述了k-近邻(KNN)分类器,它通过将待标记的图像与训练集中已经标记好的图像进行比较来标记图像。KNN有许多缺点:

  • 分类器必须记住所有的训练数据,并将其存储起来,以备将来与测试数据进行比较。这是空间低效的,因为数据集的大小可能是千兆字节。
  • 分类测试图像是昂贵的,因为它需要与所有训练图像进行比较

概述。我们现在要开发一种更强大的图像分类方法,最终会扩展到整个神经网络和卷积神经网络。该方法有两个主要组成部分:一个是评分函数(score function),它是原始图像数据到类别分值的映射。另一个是损失函数(loss function),它是用来量化预测分类标签的得分与真实标签之间一致性的。然后,我们将此作为一个优化问题处理,即调整评分函数的参数,去最小化损失函数的值。

4.1 从图像到分类评分的参数化映射

这种方法的第一个组成部分是定义将图像的像素值映射到每个类的置信分数的评分函数。假设训练数据有N个样本,每个样本有D个特征,全部的类型有K个。比如CIFAR-10数据库,N为5万,D=32 x 32 x 3 = 3072像素,K=10,因为有10个分类(狗,猫,车,等)。现在需要定义一个评分函数,将像素数据映射到分类得分。 f:RD↦RK

线性分类器。这是一个最简单的评分函数:

                                               f(xi,W,b)=Wxi+b

这个公式假设将每个图像的所有像素平坦化为一维向量(d x 1维),Xi代表第i个像素的值。矩阵W(k x d维)和向量b(k x 1维)是函数的参数。在CIFAR-10中,Xi包含第i个图像中的所有像素平坦化为单个[ 3072×1 ],W是[10×3072 ],B是[10×1 ],因此有3072个数字进入函数(原始像素值)和10个数字出来(类分数)。W中的参数通常称为权重,B称为偏置向量,因为它影响输出分数,但不与实际数据Xi交互。权重也称为参数,是一个意思。

有一些值得注意的事项

  • 首先,注意矩阵乘法WXi有效地、并行地评估10个单独的分类器(每个类之一),其中W的每一行代表一个分类器。
  • 请注意,我们认为输入数据(Xi,Yi)是给定的和固定的,而W、B是需要调整的。我们的目标是通过调整W、B这些值,让计算得分与整个训练集上的实际标记相匹配。我们将深入了解这是如何完成的。直观地说,我们希望正确的分类比不正确的分类要多。
  • 这种方法的优点是训练数据被用来学习参数W,B,但是一旦学习完成,我们可以丢弃整个训练集,只保留学习的参数。这是因为可以通过函数简单地转换新的测试图像并基于计算的分数进行分类。
  • 最后,测试图像的分类只涉及单个矩阵乘法和加法,这比将测试图像与所有训练图像进行比较明显快。

预报:卷积神经网络也是将像上面所示的那样精确地将图像像素映射到分数,但是映射(F)将更加复杂,并且将包含更多的参数。

4.2 理解线性分类器

线性分类器是通过计算所有3个颜色通道的所有像素值的加权和,来计算一个类的得分。根据我们为这些权重设置的具体的值,该函数具有在图像中的某些位置上喜欢或不喜欢(取决于每个权重的符号)某些颜色的能力。例如,如果图像的边上有很多蓝色(很可能对应于水),那么“船”类更可能出现。你可能会期望“船”分类器在蓝色通道权重更高(蓝色增加船只的分数)和红色/绿色通道中的权重更低(红色/绿色的存在降低了船的分数)。

将图像映射到类分数的示例。为了可视化,我们假设图像只有4个像素(简化为只有一个颜色通道),并且有3个分类(猫、狗、船)。我们将图像像素拉伸成一个列,并执行矩阵乘法以获得每个类的分数。请注意,这组特定的权重W根本不好:权重赋予这张猫图像非常低的CAT得分,这组权重似乎相信它到了一只狗。

将图像比喻为高维点。由于图像被拉伸成高维列向量,所以我们可以将每个图像解释为该空间中的单个点(例如,CIFAR-10中的每个图像是在32×32×3像素的3072维空间中的点)。类似地,整个数据集是一个标记好分类的点集。

由于我们定义了所有图像像素的加权和作为每个类的得分,每个类得分是在这个空间上的线性函数。我们不能想象3072维空间,但是如果我们想象将这些维度挤压成两个维度,那么我们可以尝试可视化分类器可能正在做什么:

图像空间的简易表示,其中每个图像是一个点,并且有三个分类器。使用汽车分类器(红色)的例子,红线上的所有点,为汽车类获得零分的位置。红色箭头表示增加的方向,所以红线右边的所有点都有正的(线性增加的)分数,并且左边的所有点都有负的(线性减小的)分数。

正如我们上面看到的,W的每一行都是一个类的分类器。这些数字的几何解释是,当我们改变W的某一行时,像素空间中的对应线将在不同的方向上旋转。偏值b,则允许我们平移分类器线。如果没有偏置项,无论权重如何,在Xi=0的位置都将给出零分,因此所有的分类线都将被迫穿过原点。

将线性分类器理解为模板匹配器。权重W的另一种解释是W的每一行对应于一个分类的模板(或有时也称为原型)。然后,通过将每个模板与图像一起使用内积(或点积)逐一进行比较,得到图像属于每一个类的得分,以找到最适合的一个分类。使用这个术语,线性分类器就是在进行模板匹配,其中模板是被学习得到的。另一种方法是,我们仍然有效地使用最近邻计算,但不是使用成千上

  • 6
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值