Convolutional Neural Networks for Visual Recognition 2

最新推荐文章于 2020-03-02 09:25:44 发布

Matrix_11

最新推荐文章于 2020-03-02 09:25:44 发布

阅读量1.7k

点赞数 2

分类专栏：机器学习

机器学习专栏收录该内容

113 篇文章 140 订阅

订阅专栏

Linear Classification

在上一讲里，我们介绍了图像分类问题以及一个简单的分类模型K-NN模型，我们已经知道K-NN的模型有几个严重的缺陷，第一就是要保存训练集里的所有样本，这个比较消耗存储空间；第二就是要遍历所有的训练样本，这种逐一比较的方式比较耗时而低效。

现在，我们要介绍一种更加强大的图像分类模型，这个模型会很自然地引申出神经网络和Convolutional Neural Networks(CNN)，这个模型有两个重要的组成部分，一个是score function，将原始数据映射到输出变量；另外一个就是loss function，衡量预测值与真实值之间的误差。

我们先看模型的第一部分，定义一个score function，将图像的像素值，映射到一个输出变量，这个输出变量表示图像属于每一类的置信度或者说概率，我们假设有一批训练图像， $x_{i} \in \mathbf{R}^{D}$ ，每一个训练样本都有一个类标签 $y_{i}$ ，其中， $i=1,2,...N$ ， $y_{i} \in \{1,2,...K\}$ ,就是说，我们有
$N$ 个训练样本，这 $N$ 个训练样本属于 $K$ 个类别，我们要定义的score function就是满足如下映射: $f: \mathbf{R}^{D} \rightarrow \mathbf{R}^{K}$ ，这里我们先介绍一种最简单常用的线性映射，如下所示：

f (x i, W, b) = W x i + b

$f(x_{i},W,b)=Wx_{i}+b$

在上面的表达式中， $x_{i}$ 是一个高维向量，包含一幅图像的所有像素，将图像从 $m \times n \times 3$ 变成 $D \times 1$ ，矩阵 $W$ ( $K \times D$ )和向量 $b$ ( $K \times 1$ )称为模型的参数，其中 $W$ 叫做权值，而 $b$ 称为偏移向量，我们用下面的图来表示这个映射过程:

这里写图片描述

为了能够视觉化这个过程，我们假设图像是只有四个像素（实际情况一般至少是几千个像素），将图像变成一个列向量然后与权值 $W$ 相乘，在加上偏移向量 $b$ ，最后得到score，从结果来看，这个分类模型将这幅图像判定为是一条狗。

下图展示了线性分类模型对图像分类的过程，因为我们不能将高维向量可视化，所以我们假设在二维平面观看这些图像，那么线性分类模型在各个类别之间的边界就有可能如下图所示：

这里写图片描述

从上面可以看出， $W$ 的每一行都相当于某一类的分类器，从几何意义上看，如果我们改变 $W$ 中某一行的值，那么该行所对应的分类器将会发生旋转。对应权值 $W$ 的另外一种解释就是每一行可以看成一种模板：template，一幅图像在每一类上的score可以通过template与该图像做内积获得，这种情况下，线性分类有点像是在做模板匹配，下图给出了在CIFAR-10数据库上利用线性分类模型学习得到的template， $W$ 的每一行都相当于一个template。实际运算的时候，我们也会把偏移向量 $b$ 看成是 $W$ 的某一列，这样原有的权值 $W$ 和 $b$ 组成新的权值 $W'=[W;b]$ ，那么score function也可以由 $f(x_{i},W,b)$ 变成 $f(x_{i},W)$ 。

这里写图片描述

之前我们做运算和训练的时候，都是利用图像的原始数据，一般来说，我们需要做一些预处理，我们会将一个训练集里的所有样本做归一化。比如图像，将图像从[0,255]映射到
[-1,1]的范围，而且减去均值向量，保证训练集的均值为0。

我们已经介绍了score function，现在我们要介绍线性分类模型的另外一个重要组成部分：loss function，或者成为cost function，这个用来衡量预测值与目标值之间的误差。定义loss function的方式有很多，这里我们先介绍一种经常使用的loss function，叫做Multiclass Support Vector Machine (SVM) loss。简称 SVM loss，下面给出该函数的定义，假设训练集第 $i$ 个样本的输入为 $x_{i}$ ， $y_{i}$ 表示该样本属于第几类，利用score function $f(x_{i},W)$ 我们可以计算该样本 $x_{i}$ 属于每一类的score，比如 $f(x_{i},W)_{j}$ 表示样本 $x_{i}$ 属于第 $j$ 类的score，那么该loss function定义为：

L i = \sum j \neq y i m a x (0, f (x i, W) j - f (x i, W) y i + Δ)

$L_{i}=\sum_{j \neq y_{i}}max(0, f(x_{i},W)_{j}-f(x_{i},W)_{y_{i}}+\Delta )$

请注意，由于我们这里介绍的是线性模型 $f(x_{i},W)=Wx_{i}$ ，所以我们也可以将上式重新写成：

L i = \sum j \neq y i m a x (0, w T j x i - w T y i x i + Δ)

$L_{i}=\sum_{j \neq y_{i}}max( 0, w_{j}^{T}x_{i}-w_{y_{i}}^{T}x_{i}+\Delta )$

其中， $w_{j}^{T}$ 表示 $W$ 的第 $j$ 行，如果是今后介绍的更加复杂的模型，上面这个表达式就不一定成立。上面的 $max(0,-)$ 函数称为hinge loss，这是线性的hinge loss，有的时候也会用二次的hinge loss： $max(0,-)^{2}$ ，下图解释了loss function的作用。 $\Delta$ 给出了其他类与某一类相差的界限，如果其他类与某一类相差的在这个界限之外，那么这些误差不会累计到loss function，反之，如果相差在界限范围内，这些误差就会累计到loss function，所以我们的目标就是寻找满足条件的参数 $W$ ,使得训练样本都能被正确分类，并且让loss function尽可能地低。

这里写图片描述

为了进一步提升模型的稳健性，我们会引入regularization penalty， $R(W)$ ，最常见的形式是二次式： $R(W)=\sum_{i}\sum_{j}W_{ij}^{2}$ ，所以引入 $R(W)$ 之后，loss
function就包含数据误差和regularization penalty两部分，如下式所示：

L = 1 N \sum i L i + λ R (W)

$L=\frac{1}{N}\sum_{i}L_{i}+\lambda R(W)$

展开之后得到：

L = 1 N \sum i \sum j \neq y i [m a x (0, f (x i, W) j - f (x i, W) y i + Δ)] + λ \sum i \sum j W 2 i j

$L=\frac{1}{N}\sum_{i} \sum_{j \neq y_{i}} [ max(0, f(x_{i},W)_{j}-f(x_{i},W)_{y_{i}}+\Delta ) ] + \lambda \sum_{i}\sum_{j}W_{ij}^{2}$

通过引入regularization penalty，可以使得权值的分布更加平衡，不会单独侧重于某些局部变量。

前面我们忽略了 $\Delta$ 值的探讨， $\Delta$ 应该选择多少比较合适？在实际应用中，我们发现把 $\Delta$ 设为1.0是非常安全的，事实上，参数 $\Delta,\lambda$ 都是控制loss function中数据偏差与regularization penalty之间的平衡的，因为 $W$ 的幅值对score有直接的影响，如果我们把幅值增大，那么预测的score也会变大，反之同样成立，所以 $\Delta$ 设为1.0还是100.0对最终的数据偏差不会有太多影响，因为可以通过调整 $W$ 的幅值来消除 $\Delta$ 大小带来的影响，因此，起关键作用的是 $\lambda$ ，控制着 $W$ 以多大的步幅变化。

Softmax classifier

前面介绍的SVM是线性分类器，现在我们介绍另外一种常用的非线性分类器，Softmax classifier。SVM将预测值看做是一种score，而Softmax classifier将预测值看成是一种概率，Softmax classifier的映射函数没有变化，还是 $f(x_{i};W)=Wx_{i}$ ，但是它的loss function采取了另外一种形式，称为cross-entropy loss，其定义如下：

L i = - l o g ⎛ ⎝ e f y i \sum j e f j ⎞ ⎠ = - f y i + l o g \sum j e f j

$L_{i}=-log \left( \frac{e^{f_{y_{i}}}}{ \sum_{j}e^{f_{j}}} \right) =-f_{y_{i}}+log\sum_{j}e^{f_{j}}$

这里，我们用 $f_{j}$ 表示对第 $j$ 类的预测值，与SVM一样，整个训练集的loss function将是所有样本的平均loss加上regularization误差 $R(W)$ ，函数 $f_{j}(z)=\frac{ e^{z_{j}}}{\sum_{k}e^{z_{k}}}$ 称为softmax函数，它可以将一组实数映射到[0,1]之间，并且其和为1，从信息论的角度看，cross entropy衡量地是一个实际分布 $p$ 和一个估计的分布 $q$ 之间的相关性：

H (p, q) = - \sum x p (x) l o g (q (x))

$H(p,q)=-\sum_{x}p(x)log(q(x))$

因此，Softmax分类器是缩小预测的每一类的概率与实际概率的cross entropy。

从概率的角度来看，我们可以看到表达式：

P (y i | x i; W) = e f y i \sum j e f j

$P(y_{i}|x_{i};W)=\frac{e^{f_{y_{i}}}}{ \sum_{j}e^{f_{j}}}$

可以看做是给定一张图像，其属于某一类的概率，指数项给出了概率值，而分母的归一化保证概率在[0,1]之间，而且其和为1，这样我们可以引入最大似然估计去解释这个
模型，如果进一步的，我们假设 $W$ 是属于某一特定分布，比如高斯分布，那么我们可以用最大后验概率估计去解释这个模型，这里提到这些，只是为了让大家对此有一个
直观的了解。实际编写程序的时候，由于指数运算可能会涉及到很大的值，可能会使得模型在数值上不够稳定，所以一般会引入一个常数项 $C$ ，如下所示：

e f y i \sum j e f j = C e f y i C \sum j e f j = e f y i + l o g C \sum j e f j + l o g C

$\frac{e^{f_{y_{i}}}}{\sum_{j}e^{f_{j}}} = \frac{C e^{f_{y_{i}}}}{ C\sum_{j}e^{f_{j}}} = \frac{e^{f_{y_{i}}+logC}}{ \sum_{j}e^{f_{j}+logC}}$

C的选择没有特别地规定，可以自由选择，通常我们定义 $logC=-\max_{j}f_{j}$ 。下图显示了SVM与Softmax分类器做图像分类的区别：

这里写图片描述

声明：lecture notes里的图片都来源于该课程的网站，只能用于学习，
请勿作其它用途，如需转载，请说明该课程(http://cs231n.stanford.edu/)为引用来源。

Matrix_11

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Convolutional Neural Networks for Visual Recognition 2

Linear Classification在上一讲里，我们介绍了图像分类问题以及一个简单的分类模型K-NN模型，我们已经知道K-NN的模型有几个严重的缺陷，第一就是要保存训练集里的所有样本，这个比较消耗存储空间；第二就是要遍历所有的训练样本，这种逐一比较的方式比较耗时而低效。现在，我们要介绍一种更加强大的图像分类模型，这个模型会很自然地引申出神经网络和Convolutional Neural Net
复制链接

扫一扫