神经网络与深度学习第五周-CSDN博客

本文链接：https://blog.csdn.net/qq_45402401/article/details/130026511

第五周

YOLO
语义分割与FCN
风格迁移
人脸识别

（笔记参考b站吴恩达深度学习、 Dive into Deep Learning、知乎以及博主学校课程ppt）

YOLO

YOLO包围框

YOLO有 𝑠^2 个框，每个框的bb个数为𝐵，分类器可以识别出𝐶种不同的物体，那么所有整个ground truth的长度为𝑆 × 𝑆 × (𝐵 × 5 + 𝐶)；YOLO v1中，这个数量是30；YOLO v2和以后版本使用了自聚类的anchor box为bb, v2版本为𝐵 = 5, v3中𝐵 =9。
处理细节-归一化：四个关于位置的值，分别是𝑥, 𝑦, ℎ和𝑤，均为整数，实际预测中收敛慢，因此，需要对数据进行归一化，在0-1之间。
在这里插入图片描述

置信度

在这里插入图片描述
IoU（Intersection-over-Union）指标 IoU 简称交并比，顾名思义数学中交集与并集的比例。假设有两个集合 A 与 B, IoU 即等于 A 与 B 的交集除以 A 与 B 的并集，目标检测中，IoU 为预测框 (Prediction) 和真实框 (Ground truth) 的交并比。如下图所示，在关于小猫的目标检测中，紫线边框为预测框 (Prediction)，红线边框为真实框 (Ground truth)。
在这里插入图片描述

损失函数

在这里插入图片描述

NMS

NMS核心思想是：选择得分最高的作为输出，与该输出重叠的去掉，不断重复这一过程直到所有备选处理完。
NMS算法要点:

首先丢弃概率小于预定IOU阈值（例如0.5）的所有边界框；对于剩余的边界框：
选择具有最高概率的边界框并将其作为输出预测；
计算 “作为输出预测的边界框”，与其他边界框的相关联IoU值；舍去IoU大于阈值的边界框；其实就是舍弃与“作为输出预测的边界框” 很相近的框框。
重复步骤2，直到所有边界框都被视为输出预测或被舍弃。

语义分割与FCN

语义分割基本思想

语义分割：找到同一画面中的不同类型目标区域。
在这里插入图片描述
实例分割：同一类型目标要分出来具体实例（谁是谁）。
目标检测：标出来外包围矩形。
FCN网络结构

网络结构分为两个部分：全卷积部分和反卷积部分。全卷积部分借用了一些经典的CNN网络，并把最后的全连接层换成卷积，用于提取特征，形成热点图；反卷积部分则是将小尺寸的热点图上采样得到原尺寸的语义分割图像。

反卷积与反池化

反卷积，可以理解为卷积操作的逆运算。这里千万不要当成反卷积操作可以复原卷积操作的输入值，反卷积并没有那个功能，它仅仅是将卷积变换过程中的步骤反向变换一次而已，通过将卷积核转置，与卷积后的结果再做一遍卷积，所以它还有个名字叫转置卷积。虽然它不能还原出原来卷积的样子，但是在作用上具有类似的效果，可以将带有小部分缺失的信息最大化恢复，也可以用来恢复被卷积生成后的原始输入。在这里插入图片描述

反池化是池化的逆操作，是无法通过池化的结果还原出全部的原始数据。因为池化的过程就只保留了主要信息，舍去部分信息。如果想从池化后的这些主要信息恢复出全部信息，则存在信息缺失，这时只能通过补位来实现最大程度的信息完整。
在这里插入图片描述

FCN具体实现

卷积部分：FCN中第6、7、8层都是通过1 × 1卷积得到的，第6层的输出是4096 × 7 × 7，第7层的输出是4096 × 7 × 7 ，第8层的输出是1000 × 7 × 7,即1000个大小是7 × 7的特征图（称为heatmap）。
在这里插入图片描述
输出的特征图（称为heatmap），颜色越贴近红色表示对应数值越大。
反卷积部分：跳级结构
蓝色：卷积层；绿色：Max Pooling层；黄色: 求和运算；灰色: 裁剪
FCN结果:

FCN评价指标与标注工具
在这里插入图片描述
常见标注工具:
Labelme、EISeg。

风格迁移

风格迁移是指将一幅图像的风格转移至另一幅图像上的技术。在深度学习视觉中，风格迁移可以通过使用卷积神经网络（Convolutional Neural Networks，CNN）来实现。
下面是一个简单的例子，假设我们有两幅图像，一幅是一张风景照片，另一幅是一幅著名画家的油画。我们希望将风景照片的内容与油画的风格相结合，创造出一幅新的图像，它将具有风景照片的内容和油画的风格。
为了实现这个目标，我们可以使用卷积神经网络。具体来说，我们需要使用两个训练好的卷积神经网络，一个是用于提取风景照片的内容特征的网络，另一个是用于提取油画的风格特征的网络。
一旦我们提取了这些特征，我们就可以使用一个称为“神经风格迁移”的算法来将它们组合起来。这个算法的基本思想是，在新图像的每个像素位置上，我们将保留原始图像的内容，并在该位置应用油画的风格。这样，我们就得到了一幅新的图像，它将风景照片的内容和油画的风格相结合。
需要注意的是，神经风格迁移算法是一种计算密集型算法，需要大量的计算资源和时间来生成高质量的图像。同时，算法也有一些局限性，例如可能会导致一些细节丢失或产生一些不自然的效果。但是，神经风格迁移算法仍然是一种非常有趣和有用的技术，可以被用于许多不同的应用场景，如艺术创作、图像风格转换、图像增强等。
在这里插入图片描述

人脸识别

&emsp人脸识别是一种生物特征识别技术，通过对人脸图像进行分析和比对，确定输入图像中人脸的身份信息。通常，人脸识别技术主要包括以下几个步骤：
&emsp数据采集：通过照相机或其他设备获取人脸图像或视频。
&emsp人脸检测：通过计算机视觉算法，检测输入图像中是否存在人脸，并将其位置和大小定位出来。
&emsp人脸对齐：通过人脸关键点检测等算法，将人脸旋转至标准姿势，以保证后续的特征提取和比对的准确性。
&emsp特征提取：通过计算机视觉和机器学习等技术，对人脸图像进行特征提取，如颜色、纹理、形状、深度等等，将这些特征转化为可量化的数字向量。
&emsp特征比对：将输入图像中提取的人脸特征与预先存储的人脸特征进行比对，通过计算相似度或距离等指标来确定人脸的身份信息。
&emsp决策与输出：根据比对结果，确定输入图像中的人脸是否为已知人脸，并输出相应的识别结果。