自己觉得挺有意思的目标检测框架，分享给大家（源码论文都有）

最新推荐文章于 2024-08-05 17:08:52 发布

计算机视觉研究院

最新推荐文章于 2024-08-05 17:08:52 发布

阅读量714

点赞数

文章标签：编程语言计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/gzq0723/article/details/120191942

版权

计算机视觉研究院专栏

作者：Edison_G

最近“计算机视觉研究院”有一段时间没有分享最新技术，但是最近我看了一些之前的检测框架，发现有两个很有意思，不错的框架，接下来我给大家简单分析下，希望给大家带来创新的启示！

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

论文获取｜回复”PRN“获取论文

检测是视觉的基底，不管你应用在什么领域，检测识别是最基础也是最重要的技术之一，就好比人类的眼睛，只要你看到了，才传输到大脑更新迭代学习，促使我们认识世界万物。所以，我们一定要掌握目标检测技术之一！

背景

类似于人类的快速学习能力，少样本学习使视觉系统能够通过使用少量样本进行训练来理解新概念。源自对具有单个视觉对象的图像进行元学习的领先方法。由于复杂的背景和一张图像中的多个目标的混淆，它们很难促进few-shot目标检测/分割的研究。

还有一个技术就是距离度量学习(DML)。已成功地应用于目标分类，无论是在训练数据丰富的标准体系中，还是在每个类别仅用几个例子表示的few-shot场景中。有研究者提出了一种新的DML方法，在一个端到端训练过程中，同时学习主干网络参数、嵌入空间以及该空间中每个训练类别的多模态分布。将提出的DML架构作为分类头合并到一个标准的目标检测模型中，证明了新方法在处理few-shot目标检测问题上的有效性。

在目标检测，有研究者提出了一种灵活而通用的方法来实现这些任务。其通过提出基于RoI（感兴趣区域）特征而不是完整图像特征的元学习来扩展Faster/Mask R-CNN。使Faster/Mask R-CNN变成元学习器来完成任务。

具体来说，引入了一个Predictor-head Remodeling Network (PRN)共享Faster/Mask R-CNN的主干网络。PRN接收包含few-shot目标及其边界框或masks的图像，以推断它们的类注意力向量。这些向量对RoI特征采取通道方式的软注意力，重塑那些R-CNN Predictor-head以检测或分割与这些向量所代表的类别一致的目标。

技术基础

在few-shot检测实验中，引入了新的检测类别。这是通过使用从为这些类别提供的少量训练示例(k个用于k-shot检测的示例)的前景RoI中计算的嵌入向量来替换所学习的代表(对应于旧类别)来实现的。还研究了微调新提出的模型的效果和baseline的few-shot学习。下图概略地说明了few-shot检测方法。

提出了一种新的子网结构，用于联合训练嵌入空间和该空间中的混合分布集，每个类别都有一个(多模态)混合。该体系结构对基于DML的目标分类和few-shot目标检测都有较好的改善作用；其次，提出了一种基于DML分类器头的目标检测器的设计方法，该方法能够识别新的类别，并将其转化为一种few-shot检测器。检测器训练批次通常被限制在每个GPU一个图像，不允许在类别内容方面进行批次控制。这种控制是目前任何使用情景训练的few-shot学习者所需要的。这反过来又使得在端到端训练的检测器中使用这些方法具有挑战性。在新提出的方法中，代表集充当“内部存储器”，在训练批次之间传递信息。

Few-shot目标检测旨在从极少数以前unseen类的注释示例中快速检测新目标，已经引起了社区的重大研究兴趣。大多数现有方法都采用 Faster R-CNN 作为基本检测框架，但由于缺乏针对数据稀缺场景的定制考虑，它们的性能往往不能令人满意。

就好比上面的框架，仔细研究了传统的Faster R-CNN，并从两个正交的角度分析了它的矛盾，即多阶段（RPN 与 RCNN）和多任务（分类与定位）。为了解决这些问题，我们提出了一种简单而有效的架构，名为Decoupled Faster R-CNN (DeFRCN)。

下期我们可以详细分析下旷视的DeFRCN！

新框架

首先，查询集图片经过特征提取网络和RPN网络（与Faster/Mask R-CNN中相同）得到感兴趣区域的特征图zi。然后支持集图像和对应的真实标签图经过预测器重建模网络（PRN）得到每个类别对应的类别注意力向量（class-attentive vectors），PRN网络的主体部分与Faster/Mask R-CNN的特征提取网络结构相同且权重共享，得到对应特征图后，通过逐元素Sigmoid函数得到对应的注意力向量vc。最后将RPN网络输出的感兴趣区域特征图zi和PRN网络输出的注意力向量vc通过逐通道相乘的方式进行融合，最后再利用Faster/Mask R-CNN中预测头得到对应个检测图或分割图。

假设PRN表示为：

给定属于图像xi的每个RoI特征zˆi,j，它：

上面公式意味着PRN在原理上将h(·, θ)重构为h(·, Dmeta; θ)。它直观、应用灵活，并允许与其Faster/Mask R-CNN对应物进行端到端联合训练。

Meta R-CNN中元优化过程的说明性实例

RePMet的结构中提出一种子网结构和相应的损失，使我们能够训练一个DML嵌入与多模态混合分布用于计算类后验在产生的嵌入空间。然后这个子网成为一个基于DML的分类器头部，它可以附加在分类器或检测主干的顶部。需要注意的是，DML子网是与生成功能的主干一起训练的。上图描述了所提出的子网的体系结构。

Network architectures used. (a) Network for DML based classification. (b) Network for few-shot detection; its backbone is FPN+DCN with deformable ROI-align.

实验可视化结果

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！