自监督论文阅读笔记 Self-Supervised Feature Augmentation for Large Image Object Detection

本文提出了一种名为SFANet的自监督特征增强网络,用于解决超大图像目标检测的问题。研究发现特征上采样优于直接输入放大,但直接增加输入规模消耗内存。SFANet通过引导特征上采样模块和残差亚像素卷积块,以自监督方式学习高分辨率特征表示,从而在内存限制下实现高性能。实验表明,SFANet在多个基准上达到了最先进的结果。
摘要由CSDN通过智能技术生成
       在内存限制下,面对极大的图像通常无法达到最优。在这项研究中,我们探索了目标检测流程内部的 尺度影响,并发现 引入高分辨率信息的特征上采样 有利于检测。与直接输入放大相比,特征上采样 以较小的性能损失 换取了 大量的内存节省
       基于此,本文提出了一个 自监督的特征增强网络,它将下采样的图像作为输入,旨在生成与 将放大图像馈送到网络时的特征 相当的特征。我们提出了一个 引导特征上​​采样模块 ,该模块将下采样图像作为输入,通过 从放大图像中获取的真实大特征的监督 来学习放大特征表示。以自监督学习的方式,我们可以将图像的详细信息引入网络。为了高效的特征上采样,我们设计了一个 基于亚像素卷积层的 残差亚像素卷积块,它在上采样过程中涉及大量信息。
       然而,在某些应用领域,例如自动驾驶汽车,输入图像的分辨率会非常高,其中决策组件高度依赖于视觉数据分析和需要可靠、实时的语义图像理解 [3]。由于 GPU 的内存和能力的限制,这些图像不能直接用作当前最先进的检测/分割架构的输入。
       处理上述问题的一种常见做法是 将高分辨率输入 裁剪成 几个子图像 以提供给深度学习流程,然后融合这些子图像的输出以生成最终结果。然而,这种做法效率极低且耗时。它还提出了另一个问题,即如何裁剪图像以在性能和速度之间取得良好的平衡。另一个问题是合并不同的实例分割预测具有挑战性,因为像素级融合将受到不同子结果之间不一致的高度影响。
       我们将 下采样得到的图像称为高分辨率图像,将上采样得到的图像称为低分辨率图像。
       · 随着 输入大小 在一定范围内的增加,检测网络的性能也相应提高。 
       · 对于相同的图像大小,由于上/下采样过程中的信息丢失,使用下采样(高分辨率)输入训练的检测器优于使用上采样(低分辨率)输入的检测器。
       我们应该考虑 两个方面:即在适当的范围内 增加输入尺度 和 提高输入图像的分辨率,从输入的角度来改进检测器。
       但是,直接增加输入规模 是消耗内存的,在内存限制下是无法实现的。因此,我们尝试对特征图进行上采样,而不是直接对输入进行上采样。上采样特征 可以近似于直接对输入图像进行上采样的效果。
       在本文中,我们提出了一种 用于超大图像目标检测和实例分割的自监督特征增强网络(SFANet)。 SFANet 将下采样图像作为输入,旨在学习 与从更大规模图像中学习到的特征图 相当的特征图。我们提出了一个 引导特征上​​采样模块,该模块 将下采样图像作为输入 来学习高分辨率特征表示,在 从大规模图像中 获取的真实的大特征 的监督下。以自监督的方式,我们可以将图像的详细信息引入网络。为了进行有效的上采样,我们提出了一个残差亚像素卷积块来帮助特征增强,同时信息损失最小。亚像素卷积 通过 将信息嵌入到通道中 来采用大量信息来 匹配编码过程。
       Contributions:        • 我们是 第一个 系统地分析目标检测框架内的 尺度异质性 的人。 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值