计算机视觉面经【2】

Rose'sPrince

已于 2024-05-09 20:30:29 修改

阅读量1k

点赞数 29

文章标签：计算机视觉人工智能

于 2024-05-09 20:19:23 首次发布

本文链接：https://blog.csdn.net/sdkhgsojglj/article/details/138585741

版权

1.retinanet的结构和创新点

RetinaNet 是一个用于目标检测的深度学习模型，它在 2017 年由 Facebook AI Research 的研究人员提出。RetinaNet 的主要创新点在于它解决了单阶段目标检测器在处理类别不平衡问题时遇到的困难，并且保持了高效率。下面是 RetinaNet 的结构和创新点的详细介绍：
在这里插入图片描述

结构：

RetinaNet 的结构基于一个特征金字塔网络（Feature Pyramid Network, FPN）和一个特殊的损失函数，称为焦点损失（Focal Loss）。

特征金字塔网络（FPN）：
FPN 是一个 Bottom-Up 和 Top-Down 的网络，它通过在多个尺度上构建特征图来提高检测小物体的能力。FPN 的底部连接到深度卷积网络的各个阶段，并逐步上采样特征图，从而形成一个特征金字塔。这个金字塔允许网络在不同的尺度上检测目标。
分类和回归子网络：
在 FPN 的每个级别上，RetinaNet 有两个子网络：一个用于分类（预测目标类别）和一个用于回归（预测目标边界框的位置）。这两个子网络共享参数，并且对于每个位置和尺度，都会预测多个锚点（anchor）。
锚点（Anchors）：
锚点是预设的边界框，它们覆盖了图像中的不同位置、尺度和宽高比。RetinaNet 为每个位置和尺度预测多个锚点的类别和偏移量。

创新点：

焦点损失（Focal Loss）：
RetinaNet 最核心的创新点是引入了焦点损失来解决类别不平衡问题。在目标检测中，负样本（即不包含目标的锚点）远多于正样本（包含目标的锚点），这会导致模型对负样本过拟合。焦点损失通过调整交叉熵损失，减少容易分类样本的权重，从而使得模型在训练过程中更加关注难分类的样本。焦点损失的定义如下：
$FL(p_t) = -\alpha_t (1 - p_t)^\gamma \log(p_t)$
其中， $p_t$ 是模型对于每个类别的预测概率， $\alpha_t$ 是用于平衡正负样本权重的系数， $\gamma$ 是用于减少易分类样本权重的超参数。
多尺度检测：
通过特征金字塔网络，RetinaNet 能够在不同的尺度上检测目标，这提高了对小物体的检测能力。
锚点匹配策略：
RetinaNet 使用了一个有效的锚点匹配策略，它不仅考虑了锚点和真实框之间的 IoU（交并比），还考虑了它们的中心点距离，这有助于更准确地分配正负样本。
RetinaNet 的这些创新点使其成为一个非常有效的目标检测模型，尤其在小物体检测方面表现突出。它的设计理念也被后续的许多目标检测模型所借鉴和改进。

retinanet网络详解：
https://article.juejin.cn/post/7044190975601672205
https://blog.csdn.net/qq_53144843/article/details/137082443

2.SSD的结构与创新点

在这里插入图片描述

SSD（Single Shot MultiBox Detector，单次多框检测器）是一种用于目标检测的深度学习方法，它在2016年由Wei Liu等人提出。SSD的结构与创新点主要体现在以下几个方面：

单次检测：与传统的两阶段检测方法（如R-CNN、Fast R-CNN等）不同，SSD采用单次检测的策略，即不需要先生成候选区域（Region Proposal），再对候选区域进行分类和回归，这样大大提高了检测的速度。
多尺度特征图：SSD在不同尺度的特征图上进行检测，这样可以有效地检测到不同大小的对象。SSD在网络中增加了额外的卷积层，以获得不同尺度的特征图。
默认框（Default Boxes）：SSD在每一个特征图的位置上预设一组默认框（也称为锚框，anchor boxes），这些默认框有不同的形状和大小，以适应不同形状和大小的对象。
联合检测与分类：对于每一个默认框，SSD同时预测其包含的对象类别和位置偏移量。位置偏移量用于调整默认框的位置，使其更准确地包围目标对象。
高效的特征提取网络：SSD通常基于一个预训练的卷积神经网络，如VGG16或ResNet，这些网络能够有效地提取图像特征。
硬负样本挖掘（Hard Negative Mining）：在训练过程中，SSD采用硬负样本挖掘策略，从大量的负样本中选择最难区分的样本进行训练，这样可以提高训练的效率。
数据增强：为了提高模型的泛化能力，SSD在训练过程中使用了多种数据增强方法，如随机裁剪、缩放、翻转等。
SSD的这些创新点使其在速度和准确性上达到了很好的平衡，因此在实际应用中得到了广泛的使用。不过，随着深度学习技术的不断发展，近年来也出现了许多新的目标检测方法，如YOLO、RetinaNet等，它们在速度和准确性上也有很好的表现。

SSD目标检测详解:
https://www.cnblogs.com/danieldaren/p/16720766.html
https://blog.csdn.net/just_sort/article/details/103341037

参考面经[https://download.csdn.net/blog/column/12218529/135294449]