吴恩达深度学习（三）计算机视觉CV基础

最新推荐文章于 2022-02-21 06:00:00 发布

张刻迟

最新推荐文章于 2022-02-21 06:00:00 发布

阅读量436

点赞数

分类专栏：笔记——深度学习入门

本文链接：https://blog.csdn.net/weixin_40005699/article/details/117230824

版权

笔记——深度学习入门专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一卷积神经网络

1.1 边缘检测

其他过滤器——Sobel、Scharr等

1.2 Padding——P

填充像素——Valid卷积（不填充）、Same卷积（填充后输入输出一样）

通常使用奇数维过滤器

其中一个可能是，如果f是一个偶数，那么你只能使用一些不对称填充。只有f是奇数的情况下，Same 卷积才会有自然的填充，我们可以以同样的数量填充四周，而不是左边填充多一点，右边填充少一点，这样不对称的填充。
第二个原因是当你有一个奇数维过滤器，比如 3×3 或者 5×5 的，它就有一个中心点。有时在计算机视觉里，如果有一个中心像素点会更方便，便于指出过滤器的位置。

1.3 卷积步长——s

输出变为—— $\left \lfloor \frac{n+2p-f}{s}+1 \right \rfloor * \left \lfloor \frac{n+2p-f}{s}+1 \right \rfloor$ (向下取整）

机器学习惯例，在进行卷积计算时，通常不对过滤器进行镜像翻转。

从技术上说，这个操作可能叫做互相关更好。但在大部分的深度学习文献中都把它叫做卷积运算，因此我们将在这些视频中使用这个约定。如果你读了很多机器学习文献的话，你会发现许多人都把它叫做卷积运算，不需要用到这些翻转。

1.4 卷积网络/CNN

三维卷积→单层卷积网络→简单卷积网络

一个典型的卷积神经网络通常有三层，一个是卷积层，我们常常用 Conv 来标注。上一个例子，我用的就是 CONV。还有两种常见类型的层，一个是池化层，我们称之为 POOL。最后一个是全连接层，用 FC 表示。虽然仅用卷积层也有可能构建出很好的神经网络，但大部分神经望楼架构师依然会添加池化层和全连接层。

池化层——最大池化/平均池化

最大池化只是计算神经网络某一层的静态属性，没有什么需要学习的，它只是一个静态属性。

要注意的一点是，池化过程中没有需要学习的参数。执行反向传播时，反向传播没有参数适用于最大池化。只有这些设置过的超参数，可能是手动设置的，也可能是通过交叉验证设置的。

示例

二深度卷积网络

2.1 经典网络

2.1.1 LeNet-5

相比现代版本，这里得到的神经网络会小一些，只有约 6 万个参数。而现在，我们经常看到含有一千万到一亿个参数的神经网络，比这大 1000 倍的神经网络也不在少数。

不管怎样，如果我们从左往右看，随着网络越来越深，图像的高度和宽度在缩小，从最初的 32×32 缩小到 28×28，再到 14×14、10×10，最后只有 5×5。与此同时，随着网络层次的加深，通道数量一直在增加，从 1 增加到 6 个，再到 16 个

这个神经网络中还有一种模式至今仍然经常用到，就是一个或多个卷积层后面跟着一个池化层，然后又是若干个卷积层再接一个池化层，然后是全连接层，最后是输出，这种排列方式很常用。

2.2.1 AlexNet

实际上，这种神经网络与 LeNet 有很多相似之处，不过 AlexNet 要大得多。正如前面讲到的 LeNet 或 LeNet-5 大约有 6 万个参数，而 AlexNet 包含约 6000 万个参数。当用于训练图像和数据集时，AlexNet 能够处理非常相似的基本构造模块，这些模块往往包含着大量的隐藏单元或数据，这一点 AlexNet 表现出色。AlexNet 比 LeNet 表现更为出色的另一个原因是它使用了 ReLu 激活函数。

第一点，在写这篇论文的时候，GPU 的处理速度还比较慢，所以 AlexNet 采用了非常复杂的方法在两个 GPU 上进行训练。大致原理是，这些层分别拆分到两个不同的 GPU 上，同时还专门有一个方法用于两个 GPU 进行交流。

论文还提到，经典的 AlexNet 结构还有另一种类型的层，叫作“局部响应归一化层” （Local Response Normalization），即 LRN 层，这类层应用得并不多，所以我并没有专门讲。局部响应归一层的基本思路是，假如这是网络的一块，比如是 13×13×256，LRN 要做的就是选取一个位置，比如说这样一个位置，从这个位置穿过整个通道，能得到 256 个数字，并进行归一化。进行局部响应归一化的动机是，对于这张 13×13 的图像中的每个位置来说，我们可能并不需要太多的高激活神经元。但是后来，很多研究者发现 LRN 起不到太大作用，这应该是被我划掉的内容之一，因为并不重要，而且我们现在并不用 LRN 来训练网络。

2.1.3 VGG - 16

VGG-16 的这个数字 16，就是指在这个网络中包含 16 个卷积层和全连接
层。确实是个很大的网络，总共包含约 1.38 亿个参数，即便以现在的标准来看都算是非常大的网络。

但 VGG-16 的结构并不复杂，这点非常吸引人，而且这种网络结构很规整，都是几个卷积层后面跟着可以压缩图像大小的池化层，池化层缩小图像的高度和宽度。同时，卷积层的过滤器数量变化存在一定的规律，由 64 翻倍变成 128，再到 256 和 512。作者可能认为 512 已经足够大了，所以后面的层就不再翻倍了。无论如何，每一步都进行翻倍，或者说在每一组卷积层进行过滤器翻倍操作，正是设计此种网络结构的另一个简单原则。这种相对一致的网络结构对研究者很有吸引力，而它的主要缺点是需要训练的特征数量非常巨大。

2.1.4 残差网络（ResNets）

跳跃连接（Skip connection），它可以从某一层网络层获取激活，然后迅速反馈给另外一层，甚至是神经网络的更深层。

ResNets 是由残差块（Residual block）构建的，首先我解释一下什么是残差块。

如果我们使用标准优化算法训练一个普通网络，比如说梯度下降法，或者其它热门的优化算法。如果没有残差，没有这些捷径或者跳跃连接，凭经验你会发现随着网络深度的加深，训练错误会先减少，然后增多。而理论上，随着网络深度的加深，应该训练得越来越好才对。也就是说，理论上网络深度越深越好。但实际上，如果没有残差网络，对于一个普通网络来说，深度越深意味着用优化算法越难训练。实际上，随着网络深度的加深，训练错误会越来越多。

但有了 ResNets 就不一样了，即使网络再深，训练的表现却不错，比如说训练误差减少，就算是训练深达 100 层的网络也不例外。

ResNets之所以能实现跳跃连接是因为 same 卷积保留了维度，所以很容易得出这个捷径连接，并输出这两个相同维度的向量。

普通网络和 ResNets 网络常用的结构是：卷积层-卷积层-卷积层-池化层-卷积层-卷积层-卷积层-池化层……依此重复。直到最后，有一个通过 softmax 进行预测的全连接层。

2.1.4 1×1 卷积

1×1 卷积可以从根本上理解为对这 32 个不同的位置都应用一个全连接层，全连接层的作用是输入 32 个数字（过滤器数量标记为 $n_{c}^{[l+1]}$ ，在这 36 个单元上重复此过程）,输出结果是 6×6×#filters（过滤器数量），以便在输入层上实施一个非平凡（non-trivial）计算。

这种方法通常称为 1×1 卷积，有时也被称为 Network in Network。虽然论文中关于架构的详细内容并没有得到广泛应用，但是 1×1 卷积或 Network in Network 这种理念却很有影响力，很多神经网络架构都受到它的影响，包括 Inception 网络。

它给神经网络添加了一个非线性函数，从而减少或保持输入层中的通道数量不变，当然如果你愿意，也可以增加通道数量。

2.2 谷歌 Inception 网络

2.2.1 基本原理

构建卷积层时，你要决定过滤器的大小究竟是 1×1（原来是 1×3，猜测为口误），3×3 还是 5×5，或者要不要添加池化层。而 Inception 网络的作用就是代替你来决定，虽然网络架构因此变得更加复杂，但网络表现却非常好。

有了这样的 Inception 模块，你就可以输入某个量，因为它累加了所有数字，这里的最终输出为 32+32+128+64=256。Inception 模块的输入为 28×28×192，输出为 28×28×256。这就是 Inception 网络的核心内容。

基本思想是 Inception 网络不需要人为决定使用哪个过滤器或者是否需要池化，而是由网络自行确定这些参数，你可以给网络添加这些参数的所有可能值，然后把这些输出连接起来，让网络自己学习它需要什么样的参数，采用哪些过滤器组合。但不难发现，我所描述的 Inception 层有一个问题，就是计算成本。

2.2.2 瓶颈层

瓶颈层是网络中最小的部分，我们先缩小网络表示，然后再扩大它，这种方法可有效降低计算成本。

你可能会问，仅仅大幅缩小表示层规模会不会影响神经网络的性能？事实证明，只要合理构建瓶颈层，你既可以显著缩小表示层规模，又不会降低网络性能，从而节省了计算。

2.2.3 Inception

所以 Inception 网络只是很多这些你学过的模块在不同的位置重复组成的网络，所以如果你理解了之前所学的 Inception 模块，你就也能理解 Inception 网络。

2.3 迁移学习

我建议你从网上下载一些神经网络开源的实现，不仅把代码下载下来，也把权重下载下来。有许多训练好的网络，你都可以下载。

举个例子，ImageNet 数据集，它有 1000 个不同的类别，因此这个网络会有一个 Softmax 单元，它可以输出 1000 个可能类别之一。你可以去掉这个 Softmax 层，创建你自己的 Softmax 单元，用来输出 Tigger、Misty 和neither 三个类别。就网络而言，我建议你把所有的层看作是冻结的，你冻结网络中所有层的参数，你只需要训练和你的 Softmax 层有关的参数。这个 Softmax 层有三种可能的输出，Tigger、Misty 或者都不是。

通过使用其他人预训练的权重，你很可能得到很好的性能，即使只有一个小的数据集。幸运的是，大多数深度学习框架都支持这种操作，事实上，取决于用的框架，它也许会有trainableParameter=0 这样的参数，对于这些前面的层，你可能会设置这个参数。为了不训练这些权重，有时也会有 freeze=1 这样的参数。不同的深度学习编程框架有不同的方式，允许你指定是否训练特定层的权重。在这个例子中，你只需要训练 softmax 层的权重，把前面这些层的权重都冻结。

另一个技巧，也许对一些情况有用，由于前面的层都冻结了，相当于一个固定的函数，不需要改变。因为你不需要改变它，也不训练它，取输入图像𝑌，然后把它映射到这层（softmax的前一层）的激活函数。所以这个能加速训练的技巧就是，如果我们先计算这一层（紫色箭头标记），计算特征或者激活值，然后把它们存到硬盘里。你所做的就是用这个固定的函数，在这个神经网络的前半部分（softmax 层之前的所有层视为一个固定映射），取任意输入图像𝑌，然后计算它的某个特征向量，这样你训练的就是一个很浅的 softmax 模型，用这个特征向量来做预测。对你的计算有用的一步就是对你的训练集中所有样本的这一层的激活值进行预计算，然后存储到硬盘里，然后在此之上训练 softmax 分类器。所以，存储到硬盘或者说预计算方法的优点就是，你不需要每次遍历训练集再重新计算这个激活值了。

因此如果你的任务只有一个很小的数据集，你可以这样做。要有一个更大的训练集怎么办呢？根据经验，如果你有一个更大的标定的数据集，也许你有大量的 Tigger 和 Misty 的照片，还有两者都不是的，这种情况，你应该冻结更少的层，比如只把这些层冻结，然后训练后面的层。如果你的输出层的类别不同，那么你需要构建自己的输出单元，Tigger、Misty 或者两者都不是三个类别。

2.4 数据扩充

大部分的计算机视觉任务使用很多的数据，所以数据扩充是经常使用的一种技巧来提高计算机视觉系统的表现。

镜像对称、随机裁剪、彩色转换、......

常用的实现数据扩充的方法是使用一个线程或者是多线程，这些可以用来加载数据，实现变形失真，然后传给其他的线程或者其他进程，来训练这个（编号 2）和这个（编号 1），可以并行实现。

三目标检测

3.1 目标定位

符号表示：图片左上角的坐标为（0,0），右下角标记为（1,1）。红色方框中心点 $(b_x , b_y)$ ,边界框的高度 $b_h$ ,宽度 $b_w$ 。目标标签y的定义如下 $y=\begin{bmatrix}p_c \\ b_x \\ b_y \\ b_h \\ b_w \\c_1 \\ c_2 \\ c_3 \end{bmatrix}$

第一个组件 $p_c$ 表示是否含有对象.

3.2 特征点检测

输出要识别的各个特征点的(x,y)坐标值。要明确一点，特征点 1 的特性在所有图片中必须保持一致，就好比，特征点 1 始终是右眼的外眼角，特征点 2 是右眼的内眼角，特征点3 是左眼内眼角，特征点 4 是左眼外眼角等等。所以标签在所有图片中必须保持一致，假如你雇用他人或自己标记了一个足够大的数据集，那么神经网络便可以输出上述所有特征点，你可以利用它们实现其他有趣的效果，比如判断人物的动作姿态，识别图片中的人物表情等等。

3.3 目标检测

如何通过卷积网络进行对象检测？通常采用的是基于滑动窗口的目标检测算法。

滑动窗口目标检测算法也有很明显的缺点，就是计算成本，因为你在图片中剪切出太多小方块，卷积网络要一个个地处理。如果你选用的步幅很大，显然会减少输入卷积网络的窗口个数，但是粗糙间隔尺寸可能会影响性能。反之，如果采用小粒度或小步幅，传递给卷积网络的小窗口会特别多，这意味着超高的计算成本。

3.4 卷积的滑动窗口实现

总结一下滑动窗口的实现过程，在图片上剪切出一块区域，假设它的大小是 14×14，把它输入到卷积网络。继续输入下一块区域，大小同样是 14×14，重复操作，直到某个区域识别到汽车。它提高了整个算法的效率。不过这种算法仍然存在一个缺点，就是边界框的位置可能不够准确。

3.5 Bounding Box 预测

其中一个能得到更精准边界框的算法是 YOLO 算法，YOLO(You only look once)意思是你只看一次，这是由 Joseph Redmon，Santosh Divvala，Ross Girshick 和 Ali Farhadi 提出的算法。

是这么做的，比如你的输入图像是 100×100 的，然后在图像上放一个网格。为了介绍起来简单一些，我用 3×3 网格，实际实现时会用更精细的网格，可能是 19×19。基本思路是使用图像分类和定位算法，前几个视频介绍过的，然后将算法应用到 9 个格子上。

（基本思路是，采用图像分类和定位算法，本周第一个视频中介绍过的，逐一应用在图像的 9 个格子中。）

更具体一点，你需要这样定义训练标签，所以对于 9 个格子中的每一个指定一个标签y，y是 8 维的。

这个算法的优点在于神经网络可以输出精确的边界框，所以测试的时候，你做的是喂入输入图像x，然后跑正向传播，直到你得到这个输出y。然后对于这里 3×3 位置对应的 9个输出，我们在输出中展示过的，你就可以读出 1 或 0（编号 1 位置），你就知道 9 个位置之一有个对象。如果那里有个对象，那个对象是什么（编号 3 位置），还有格子中这个对象的边界框是什么（编号 2 位置）。只要每个格子中对象数目没有超过 1 个，这个算法应该是没问题的。一个格子中存在多个对象的问题，我们稍后再讨论。但实践中，我们这里用的是比较小的 3×3 网格，实践中你可能会使用更精细的 19×19 网格，所以输出就是 19×19×8。这样的网格精细得多，那么多个对象分配到同一个格子得概率就小得多。

重申一下，把对象分配到一个格子的过程是，你观察对象的中点，然后将这个对象分配到其中点所在的格子，所以即使对象可以横跨多个格子，也只会被分配到 9 个格子其中之一，就是 3×3 网络的其中一个格子，或者 19×19 网络的其中一个格子。在 19×19 网格中，两个对象的中点（图中蓝色点所示）处于同一个格子的概率就会更低。

3.6 交并比/IoU

一般约定，在计算机检测任务中，如果IoU ≥ 0.5，就说检测正确，如果预测器和实际边界框完美重叠，loU 就是 1，因为交集就等于并集。但一般来说只要IoU ≥ 0.5，那么结果是可以接受的，看起来还可以。一般约定，0.5 是阈值，用来判断预测的边界框是否正确。

所以这是衡量定位精确度的一种方式，你只需要统计算法正确检测和定位对象的次数，你就可以用这样的定义判断对象定位是否准确。再次，0.5 是人为约定，没有特别深的理论依据，如果你想更严格一点，可以把阈值定为 0.6。有时我看到更严格的标准，比如 0.6 甚至 0.7，但很少见到有人将阈值降到 0.5 以下。
人们定义 loU 这个概念是为了评价你的对象定位算法是否精准，但更一般地说，loU 衡量了两个边界框重叠地相对大小。

3.7 非极大值抑制

非极大值抑制，非最大值意味着你只输出概率最大的分类结果，但抑制很接近，但不是最大的其他预测结果，所以这方法叫做非极大值抑制。

3.8 Anchor Box

anchor box 的思路是，这样子，预先定义两个不同形状的 anchor box，或者 anchor box 形状，你要做的是把预测结果和这两个 anchor box 关联起来。一般来说，你可能会用更多的 anchor box，可能要 5 个甚至更多。

以上全部构成了YOLO算法。

3.8 候选区域

R-CNN，Fast R-CNN

张刻迟

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
吴恩达深度学习（三）计算机视觉CV基础

一卷积神经网络1 边缘检测其他过滤器——Sobel、Scharr等2 Padding——P填充像素——Valid卷积（不填充）、Same卷积（填充后输入输出一样）通常使用奇数维过滤器其中一个可能是，如果f是一个偶数，那么你只能使用一些不对称填充。只有f是奇数的情况下，Same 卷积才会有自然的填充，我们可以以同样的数量填充四周，而不是左边填充多一点，右边填充少一点，这样不对称的填充。第二个原因是当你有一个奇数维过滤器，比如 3×3 或者 5×5 的，它就有一个中心点
复制链接

扫一扫