CVPR2025论文解析|DynRefer Delving into Region-level Multimodal Tasks via Dynamic Resolution

论文标题

DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution 动态分辨率深入研究区域级多模态任务

论文链接

DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution论文下载

论文作者

Yuzhong Zhao, Feng Liu, Yue Liu, Mingxiang Liao, Chen Gong, Qixiang Ye, Fang Wan

内容简介

本文提出了一种名为DynRefer的方法,旨在通过模仿人类视觉认知的动态分辨率特性,提升区域级多模态任务的准确性。现有方法在处理不同任务时未能考虑分辨率适应性,导致语言描述的精确性不足。DynRefer通过随机对齐多模态任务的语言描述与多分辨率图像,在训练过程中构建嵌套视图,并在推理时选择合适的区域表示,从而更好地匹配人类的偏好。实验结果表明,DynRefer在区域级字幕、开放词汇区域识别和属性检测等多项任务中均取得了最先进的结果,展示了其强大的任务适应性和表示能力。在这里插入图片描述

分点关键点在这里插入图片描述

  1. DynRefer方法概述

    • DynRefer通过模仿人类视觉系统的动态分辨率特性,提升区域级多模态任务的表现。该方法在训练阶段随机对齐语言描述与多分辨率图像,并在推理阶段选择合适的区域表示,以满足不同任务的需求。
  2. 动态分辨率的实现

    • 在训练过程中,DynRefer构建了多个嵌套视图,这些视图围绕所指区域随机采样,以模拟动态分辨率。通过这种方式,模型能够专注于与查询相关的区域,从而提高信息编码的质量。
  3. 选择性多模态引用

    • 在推理阶段,DynRefer根据任务先验和图像先验选择合适的视图,以生成特定任务的输出。当任务类型已知时,模型会选择与任务属性相关的视图;当任务类型未知时,则通过贪婪搜索算法最大化组合视图的信息量。
  4. 实验结果与性能

    • DynRefer在多个基准测试上表现出色,包括OVAD、COCO、Visual Genome和RefCOCOg等数据集。实验结果显示,DynRefer在开放词汇属性检测、区域识别和区域级字幕生成等任务中均超越了现有的最先进方法,展现了其强大的适应性和表示能力。在这里插入图片描述

论文代码

代码链接:https://github.com/callsys/DynRefer

中文关键词

  1. 动态分辨率
  2. 区域级多模态任务
  3. 视觉认知
  4. 随机对齐
  5. 选择性多模态引用
  6. 任务适应性

CVPR论文合集:

CVPR论文合集

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值