【目标检测】多模态航空目标检测:A SIMPLE AERIAL DETECTION BASELINE OF MULTIMODAL LANGUAGE MODELS

阅读并理解一篇论文:A SIMPLE AERIAL DETECTION BASELINE OF MULTIMODAL LANGUAGE MODELS

该文首次提出了一种将多模态语言模型应用于航空检测的简单基线方法,名为 LMMRotate。

贡献:具体而言,首先引入一种归一化方法,将检测输出转换为文本输出,以适配多模态语言模型框架。接着,提出一种评估方法,确保多模态语言模型与传统目标检测模型之间能够进行公平比较。通过微调开源通用多模态语言模型构建了该基线,并取得了与传统检测器相当的出色检测性能。提出一种合适的评估方案,使多模态语言模型与传统检测器之间能够进行公平比较

难点:检测输出由边界框的数值坐标和物体类别组成,这与语言模型产生的文本输出显著不同。其次,语言生成模型通常是自回归的,生成因果序列,而检测模型通常并行输出所有结果。此外,由于存在许多小而密集的物体,航空检测带来了相当大的挑战,这对视觉输入分辨率和多模态语言模型的输出序列长度都提出了很高的要求。

方法:

1、图像理解的多模态语言模型范式,该范式如下,通过双模态投影操作将视觉基础模型和语言基础模型连接起来。我们对现成的预训练多模态语言模型进行微调,以继承从定位任务中学到的定位能力。

如图所示,输入遥感图像首先通过图像预处理,然后通过ViT得到视觉特征,视觉特征通过双

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值