论文标题
DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution 动态分辨率深入研究区域级多模态任务
论文链接
DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution论文下载
论文作者
Yuzhong Zhao, Feng Liu, Yue Liu, Mingxiang Liao, Chen Gong, Qixiang Ye, Fang Wan
内容简介
本文提出了一种名为DynRefer的方法,旨在通过模仿人类视觉认知的动态分辨率特性,提升区域级多模态任务的准确性。现有方法在处理不同任务时未能考虑分辨率适应性,导致语言描述的精确性不足。DynRefer通过随机对齐多模态任务的语言描述与多分辨率图像,在训练过程中构建嵌套视图,并在推理时选择合适的区域表示,从而更好地匹配人类的偏好。实验结果表明,DynRefer在区域级字幕、开放词汇区域识别和属性检测等多项任务中均取得了最先进的结果,展示了其强大的任务适应性和表示能力。
分点关键点
-
DynRefer方法概述
- DynRefer通过模仿人类视觉系统的动态分辨率特性,提升区域级多模态任务的表现。该方法在训练阶段随机对齐语言描述与多分辨率图像,并在推理阶段选择合适的区域表示,以满足不同任务的需求。
-
动态分辨率的实现
- 在训练过程中,DynRefer构建了多个嵌套视图,这些视图围绕所指区域随机采样,以模拟动态分辨率。通过这种方式,模型能够专注于与查询相关的区域,从而提高信息编码的质量。
-
选择性多模态引用
- 在推理阶段,DynRefer根据任务先验和图像先验选择合适的视图,以生成特定任务的输出。当任务类型已知时,模型会选择与任务属性相关的视图;当任务类型未知时,则通过贪婪搜索算法最大化组合视图的信息量。
-
实验结果与性能
- DynRefer在多个基准测试上表现出色,包括OVAD、COCO、Visual Genome和RefCOCOg等数据集。实验结果显示,DynRefer在开放词汇属性检测、区域识别和区域级字幕生成等任务中均超越了现有的最先进方法,展现了其强大的适应性和表示能力。
- DynRefer在多个基准测试上表现出色,包括OVAD、COCO、Visual Genome和RefCOCOg等数据集。实验结果显示,DynRefer在开放词汇属性检测、区域识别和区域级字幕生成等任务中均超越了现有的最先进方法,展现了其强大的适应性和表示能力。
论文代码
代码链接:https://github.com/callsys/DynRefer
中文关键词
- 动态分辨率
- 区域级多模态任务
- 视觉认知
- 随机对齐
- 选择性多模态引用
- 任务适应性
CVPR论文合集:
希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!