CV论文--2024.2.1

文章探讨了在xBD数据集上构建简单且强大的建筑损伤检测方法,通过优化基线和分析数据集泛化。同时,介绍了YOLO-World,一种增强YOLO在开放词汇检测能力的视觉语言模型,以及YouOnlyNeedOneStep的超分辨率技术,通过尺度蒸馏实现快速且稳定的图像处理。
摘要由CSDN通过智能技术生成

1、A simple, strong baseline for building damage detection on the xBD dataset

中文标题:用于在 xBD 数据集上构建损伤检测的简单而强大的基线

简介:我们利用xView2比赛中高度工程化的获胜解决方案,并逐步剥离组件,构建了一个强大的建筑损伤检测基线方法。通过这种方式,我们获得了一个更简单的方法,同时仍能保持足够的性能。我们希望这种简化的解决方案能够更广泛、更容易地应用。我们对此抱有期望,是因为我们降低了方法的复杂性,并选择了基于简单启发式的超参数,这些超参数可以适用于其他数据集。

接下来,我们重新划分了xView2数据集,使测试位置在训练期间不可见,这与比赛设置相反。在这样的设置下,我们发现复杂模型和简化模型都无法推广到未见过的位置。分析数据集后发现,这种泛化失败不仅是基于模型的问题,还可能受到事件之间不平衡的类分布的影响。

您可以在https://github.com/PaulBorneP/Xview2_Strong_Baseline中获取代码,包括基线模型。

2、YOLO-World: Real-Time Open-Vocabulary Object Detection

中文标题:YOLO-World:实时开放词汇目标检测

简介:YOLO系列检测器已经成为高效实用的工具,但是它们对预定义和训练过的物体类别的依赖限制了它们在开放场景中的适用性。为了解决这个限制,我们引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大规模数据集上的预训练,增强了YOLO在开放词汇检测方面的能力。

具体而言,我们提出了一种新的可重参数化视觉语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉和语言信息之间的交互。我们的方法以高效的方式在零样本情况下出色地检测各种物体。在具有挑战性的LVIS数据集上,YOLO-World在V100上以52.0 FPS的速度实现了35.4 AP,在准确性和速度方面均优于许多最先进的方法。

此外,经过微调的YOLO-World在几个下游任务中展现出了卓越的性能,包括物体检测和开放词汇实例分割。

3、You Only Need One Step: Fast Super-Resolution with Stable Diffusion via Scale Distillation

中文标题:您只需一步:通过刻度蒸馏实现快速超分辨率和稳定扩散

简介:本文介绍了一种新的基于扩散的图像超分辨率稳定方法YONOS-SR,仅使用单个DDIM步骤即可获得最先进的结果。我们提出了一种新的尺度蒸馏方法来训练我们的SR模型。我们并非直接在感兴趣的尺度因子上训练SR模型,而是先在较小的放大比例上训练一个教师模型,从而使教师的SR问题更简单。然后,我们使用教师的预测作为训练期间的目标,为更高的放大比例尺度训练一个学生模型。这个过程反复迭代,直到达到最终模型的目标尺度因子。我们尺度蒸馏的理念是,教师通过提供适应当前噪声水平的目标,而不是使用来自所有噪声水平的相同的真实数据的目标,来帮助学生扩散模型训练,并提供一个准确的目标,因为教师有一个更简单的任务要解决。我们实证表明,经过蒸馏的模型明显优于直接训练高尺度的模型,特别是在推理期间仅使用少量步骤。拥有一个仅需要一步的强大扩散模型使我们能够冻结U-Net并在其上微调解码器。我们证明了空间蒸馏的U-Net和微调解码器的组合优于需要200步的最先进方法,仅使用一步即可实现。

  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值