深度学习课程系列笔记（四）

最新推荐文章于 2024-06-14 15:00:00 发布

chenD_hit

最新推荐文章于 2024-06-14 15:00:00 发布

阅读量39

点赞数

文章标签：深度学习笔记人工智能

本文链接：https://blog.csdn.net/chen_D_u_0/article/details/130207912

版权

深度学习课程学习记录，与吴恩达深度学习课程、《动手学深度学习》相结合。

Yolo

模型结构：

损失函数：

NMS：

1. 首先丢弃概率小于预定IOU阈值（例如0.5）的所有边界框；对于剩余的边界框：

2. 选择具有最高概率的边界框并将其作为输出预测；

3. 计算 “作为输出预测的边界框”，与其他边界框的相关联IoU 值；舍去IoU大于阈值的边界框；其实就是舍弃与“作为输出预测的边界框” 很相近的框框。

4. 重复步骤2，直到所有边界框都被视为输出预测或被舍弃

预训练与训练：

YOLO先使用ImageNet数据集对前20层卷积网络进行预训练，然后使用完整的网络，在PASCAL VOC数据集上进行对象识别和定位的训练和预测训练中采用了drop out和数据增强来防止过拟合。 YOLO的最后一层采用线性激活函数(因为要回归bb位置)，其它层都是采用Leaky ReLU激活函数：

FCN模型

语义分割关注如何将图像分割成属于不同语义类别的区域。值得一提的是，这些语义区域的标注和预测都是像素级的。下图展示了语义分割中图像有关狗、猫和背景的标签。可以看到，与目标检测相比，语义分割标注的像素级的边框显然更加精细。

实例分割：同一类型目标要分出来具体实例（谁是谁）目标检测：标出来外包围矩形

语义分割目标：对图中每一个像素进行分类，得到对应标签。

网络结构：

网络结构分为两个部分：全卷积部分和反卷积部分。全卷积部分借用了一些经典的CNN网络，并把最后的全连接层换成卷积，用于提取特征，形成热点图；反卷积部分则是将小尺寸的热点图上采样得到原尺寸的语义分割图像。

卷积部分：

FCN中第6、7、8层都是通过1 × 1卷积得到的，第6层的输出是4096 × 7 × 7，第7层的输出是4096 × 7 × 7 ，第8层的输出是1000 × 7 × 7,即1000个大小是 7 × 7的特征图（称为heatmap）

反卷积部分：

蓝色：卷积层；绿色：Max Pooling层；黄色: 求和运算；灰色: 裁剪

FCN-32s：

FCN-16s：

FCN-8s：

训练结果：

风格迁移

如果你是一位摄影爱好者，也许接触过滤镜。它能改变照片的颜色样式，从而使风景照更加锐利或者令人像更加美白。但一个滤镜通常只能改变照片的某个方面。如果要照片达到理想中的样式，经常需要尝试大量不同的组合，其复杂程度不亚于模型调参。这里我们需要两张输入图像，一张是内容图像，另一张是样式图像，我们将使用神经网络修改内容图像使其在样式上接近样式图像。

首先，我们初始化合成图像，例如将其初始化成内容图像。该合成图像是样式迁移过程中唯一需要更新的变量，即样式迁移所需迭代的模型参数。然后，我们选择一个预训练的卷积神经网络来抽取图像的特征，其中的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式特征。

以之前放的图像为例，这里选取的预训练的神经网络含有3个卷积层，其中第二层输出图像的内容特征，而第一层和第三层的输出被作为图像的样式特征。接下来，我们通过正向传播（实线箭头方向）计算样式迁移的损失函数，并通过反向传播（虚线箭头方向）迭代模型参数，即不断更新合成图像。

样式迁移常用的损失函数由3部分组成：内容损失（content loss）使合成图像与内容图像在内容特征上接近，样式损失（style loss）令合成图像与样式图像在样式特征上接近，总变差损失（total variation loss）则有助于减少合成图像中的噪点。