神经网络与深度学习课程总结（四）

最新推荐文章于 2024-08-05 11:30:43 发布

HIThelicopter

最新推荐文章于 2024-08-05 11:30:43 发布

阅读量274

点赞数

文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/HIThelicopter/article/details/130107223

版权

一、目标检测与YOLO

1、YOLO网络结构

1.1 YOLO网络结构

YOLO网络结构概略图

网络结构包含24个卷积层和2个全连接层；其中前20个卷积层用来做预训练，后面4个是随机初始化的卷积层，和2个全连接层。

1.2 YOLO模型处理

处理实例

1.2.1 YOLO输入

YOLO v1在PASCAL VOC数据集上进行的训练，因此输入图片为 448 × 448 × 3。实际中如为其它尺寸，需要resize或切割成要求尺寸。

1.2.2 YOLO模型处理

 将图片分割为 $s^2$ 个grid(𝑆 = 7)，每个grid cell的大小都是相等的

 每个格子都可以检测是否包含目标

 YOLO v1中，每个格子只能检测一种物体（但可以不同大小）

1.2.3 YOLO网络输出

 输出是一个7 × 7 × 30的张量。对应 7 × 7个cell

 每个cell对应2个包围框(bounding box, bb)，预测不同大小和宽高比，对应检测不同目标。每个bb有5个分量，分别是物体的中心位置(𝑥, 𝑦)和它的高 (ℎ) 和宽 (𝑤) ，以及这次预测的置信度。

在右图中，每个框代表1个预测的bb，粗细代表不同的置信度，越粗得越高。

1.2.4 YOLO模型输出

在上面的例子中，图片被分成了49个框，每个框预测2个bb，因此上面的图中有98个bb

2、包围框与置信度

2.1 YOLO包围框

2.1.1 YOLO的包围框

我们有 $s^2$ 个框，每个框的bb个数为𝐵，分类器可以识别出 𝐶 种不同的物体，那么所有整个 ground truth 的长度为 𝑆 × 𝑆 × (𝐵 × 5 + 𝐶)

YOLO v1中，这个数量是30

YOLO v2和以后版本使用了自聚类的anchor box为bb, v2版本为𝐵 = 5, v3中 𝐵 =9

2.1.2 处理细节——归一化

四个关于位置的值，分别是𝑥, 𝑦, ℎ和𝑤，均为整数，实际预测中收敛慢因此，需要对数据进行归一化，在0-1之间。

例子是一个448*448的图片，有3*3的grid，每个 cell是149。目标中心点是(220,190)

2.2 YOLO置信度

置信度计算公式： $C=Pr(obj)*IOU^{pred}_{truth}$

Pr(𝑜𝑏𝑗)是一个grid有物体的概率
IOU是预测的bb和真实的物体位置的交并比

2.3 训练值与预测值

2.3.1 处理细节——训练值

2.3.2 处理细节——训练数据与网络输出

3、损失函数

3.1 YOLO损失函数

3.2 边界框对应损失项

第2项要开根号让误差更显著，保证回归精度

3.3 $\lambda$ 取值

4、训练与NMS

4.1 预训练与训练

4.2 NMS算法

二、语义分割

2.1 语义分割定义

语义分割关注如何将图像分割成属于不同语义类别的区域。值得一提的是，这些语义区域的标注和预测都是像素级的。下图展示了语义分割中图像有关狗、猫和背景的标签。

2.2 语义分割与其他分割的区别

图像分割：图像分割将图像分割成若干组成区域。这类问题的方法通常利用图像中像素之间的相关性。它在训练时不需要有关图像像素的标签信息，在预测时也无法保证分割出的区域具有我们希望得到的语义。
实例分割：实例分割又叫同时检测并分割。它研究如何识别图像中各个目标实例的像素级区域。与语义分割有所不同。
区别：以上图的两只狗为例，图像分割可能将狗分割成两个区域：一个覆盖以黑色为主的嘴巴和眼睛，而另一个覆盖以黄色为主的其余部分身体。而实例分割不仅需要区分语义，还要区分不同的目标实例。如果图像中有两只狗，实例分割需要区分像素属于这两只狗中的哪一只。

2.3 语义分割数据集

语义分割的一个重要数据集叫作Pascal VOC2012 。

2.3.1 Pascal VOC2012下载与内容

压缩包大小是 2GB 左右，下载需要一定时间。下载后解压得到VOCdevkit/VOC2012文件夹，然后将其放置在data文件夹下。

ImageSets/Segmentation路径包含了指定训练和测试样本的文本文件。

JPEGImages和SegmentationClass路径下分别包含了样本的输入图像和标签。

这里的标签也是图像格式，其尺寸和它所标注的输入图像的尺寸相同。标签中颜色相同的像素属于同一个语义类别。

2.3.2 自定义语义分割数据集类

首先继承PyTorch提供的Dataset类自定义一个语义分割数据集类 VOCSegDataset。
通过实现__getitem__函数，任意访问数据集中索引为idx的输入图像及其每个像素的类别索引。
由于数据集中有些图像的尺寸可能小于随机裁剪所指定的输出尺寸，获得的样本需要通过自定义的filter函数所移除。
最后对输入图像的RGB三个通道的值分别做标准化。

三、风格迁移

3.1 风格迁移简介

风格迁移问题：两张输入图像，一张是内容图像，另一张是样式图像，我们将使用神经网络修改内容图像使其在样式上接近样式图像。

方法：

首先，我们初始化合成图像，例如将其初始化成内容图像。该合成图像是样式迁移过程中唯一需要更新的变量，即样式迁移所需迭代的模型参数。
然后，我们选择一个预训练的卷积神经网络来抽取图像的特征，其中的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式特征。