「干货」最新目标检测Matrix Nets架构,速度快3倍参数少半

最新推荐文章于 2024-08-09 21:49:43 发布

仪器之家

最新推荐文章于 2024-08-09 21:49:43 发布

阅读量2.2k

点赞数

分类专栏：图像算法文章标签：目标检测图像算法 Matrix Nets xNet CenterNet

本文链接：https://blog.csdn.net/hahabeibei123456789/article/details/99671813

版权

图像算法专栏收录该内容

154 篇文章 45 订阅

订阅专栏

这篇Paper加拿大滑铁卢大学最新推出的一篇目标检测新文。目前该论文仅放出了抢先版，完整论文还请各位稍安勿躁。

本文提出了一种称作Matrix Net（或xNet）的网络架构，这种架构现了目标检测网络对物体宽高比的感知。与以往的特征金字塔架构的“多次下采样”不同，xNet在分别针对水平方向、针对竖直方向以及针对两者同时进行下采样，从而在每次下采样时产生了三个特征图分支。水平和竖直方向采样后的特征图分别用于不同长宽比的物体检测，而整体下采样后的特征图像特征金字塔中一样，用于重复以上的过程。

基于关键点的多尺度xNet在MS COCO上达到了47.8的mAP，超越了所有的单阶段目标检测器，在参数量上仅仅是排行第二的多尺度CenterNet的一半，并且训练速度是它的三倍。

特点

这是一个“矩阵网络”，参数少，效果好，训练快，内存使用率低。将这样的模式加载到目标检测中，超过SOTA检测器并不是梦想。

概述

在本文中，研究人员提出了Matrix Net（xNet），一种用于目标检测的深层架构。研究人员使用xNet来增强基于关键点的目标检测，并在MS COCO数据集上实现了47.8 mAP，这比任何其他单次检测器都要好，并且参数数量减半。重要的是，xNets比第二个最佳架构快3倍。

如下图所示，很明显xNet的参数比其他模型更有效。其中FSAF是最好的锚定探测器，超过了经典的RetinaNet。在基于关键点的目标探测器中，18年来提出的CornerNet是一个“开山”，今年它已经提出了CenterNet。这些非常强大的单发探测器看起来不如xNet。

图1：MSCOCO测试集上的一步检测体系结构的模型大小（参数数量）与准确度（平均准确度）。在MatrixNet主干的帮助下，本文作者提出的模型优于所有其他具有相似参数的单镜头架构。

在本文中，xNet用于基于关键点的目标检测以形成KP-xNet，这将在后面继续描述，但在此重点关注其性能。事实上，基于关键点的目标检测最近也是一个热门话题。通过几个关键点确定边界框非常简单和优雅。

数据对比

过去最好的表现是CenterNet，它在COCO数据集上获得了47.0 mAP，但KP-xNet只需要参数大小的一半，迭代的1/3和GPU内存的1/2，以获得额外的5.7。％mAP的效果得到改善。

表1：建议的体系结构与MSCOCO数据集上的其他体系结构的实验比较。如图所示，ResNext-101-X的最终模型是具有最高值的KP-xNet（MultiScale）mAP，比原始的CornerNet（MultiScale）架构高5.7％。

目标检测分类

目标检测体系结构可以分为两类：一步检测体系结构和两步检测体系结构。两步检测使用候选区域网络来找到固定数量的候选目标，然后使用第二网络来预测每个候选目标的分数并修改边界框。

一步检测体系结构也可以分为两类：基于锚的检测体系结构和基于关键点的检测体系结构。

基于锚的检测架构包含许多锚箱，用于预测每个模板的偏移和类别，其中最着名的是RetinaNet。
基于键的检测架构可预测左上角和右下角的热图，并将它们与特征嵌入相结合。CornerNet基于非常经典的关键点检测架构。

检测不同尺度的目标是目标检测任务的主要挑战。特征金字塔网络（FPN）是多尺度架构领域的最大进步之一。虽然FPN提供了一种处理不同大小目标的优雅方法，但它不能为不同的宽高比目标提供任何解决方案。

为了解决这个问题。研究人员引入了一种新的CNN架构Matrix网络，它解决了目标规模和纵横比问题。如下面的图2所示，xNet有几个矩阵层，每个矩阵层负责处理特定大小和宽高比的目标。xNet为每个层分配不同大小和宽高比的目标，以确保目标大小在其分配的层之间几乎是一致的。这允许方形输出卷积内核从各种宽高比和大小的目标收集信息。与FPN类似，xNet可以应用于不同的主干。

图2：（a）是原始FPN架构，为每个比例分配不同的输出层。（b）是MatrixNet架构，它将五个FPN层视为矩阵中的对角层，通过对这些层进行下采样来填充矩阵的其余部分。

什么是Matrix Nets？

如图2所示，矩阵网（xNets）使用分层矩阵对具有不同大小和宽高比的目标进行建模，其中矩阵中的每个条目i，j表示层l_i，j，矩阵的左上层，l_1 ，1中宽下采样2 ^（i-1），高度下采样2 ^（j-1）。对角线层是不同大小的方形层，相当于FPN，而非对角线层是矩形层（这对于xNets是唯一的）。

层l_1,1是最大的层，每个步骤向右，层宽度减半，每个步骤减半。例如，层l_3,4是层l_3,3的宽度的一半。对角线层对目标进行建模，其纵横比接近正方形，而非对角线层对目标进行建模，其纵横比不接近正方形。靠近矩阵的右上角或左下角的层模拟非常高或非常低的纵横比目标。这些目标非常罕见，因此可以修剪它们以提高效率。

1.图层生成

生成矩阵层是影响模型参数数量的关键步骤。参数越多，模型表达的能力越强，但优化越困难，因此研究人员尽可能少地使用新参数。

2.图层范围

矩阵中的每一层都模拟一定宽度和高度的目标，因此研究人员需要为矩阵中的每一层定义宽度和高度范围，并且该范围需要反映矩阵特征向量的感受域。层。

3.矩阵网的优点

Matrix Nets的主要优点是它允许方形卷积内核准确地收集不同宽高比的信息。因此，基于此功能，MatrixNets可用作任何目标检测的主要架构，包括基于锚点或关键点的一步或两步检测器。

Matrix Nets如何用于基于关键点的检测

CornerNet建议更换基于锚的探测器，它使用一对角度 - 左上角和右下角 - 来预测边界框。对于每个角落，CornerNet预测热图，偏移和嵌入。

下面的图3显示了研究人员KP-xNet提出的基于关键点的目标检测架构，该架构由4个步骤组成。（ab）步骤使用xNet主干; （c）步骤使用共享输出子网，并且对于每个矩阵层，它们预测左上角和右下角的热图和偏移，并且它们位于目标层中。执行中心点预测; （d）该步骤使用中心点预测来匹配同一层中的角度，然后将所有层的输出与软非最大值抑制相结合以获得最终输出。