红外图像指令数据的构建

2023年初随着chatgpt的盛行,以及llama\chatglm等开源LLM的公布,大模型成了nlp继bert之后的新流行趋势。而在LLM基础上额外增加其他模态理解能力的MLLM(Multimodal Large Language Model)也踊跃了许多优秀的工作:BLIP2、LlaVa、minigpt4等等。

除了这些增加rgb图像理解的MLLM,也有理解生物医学图像的llava-med/Xray-GPt,理解多种模态的imagebind_LLM\video-llama等等。后者在训练时由于其他模态数据的稀少,往往采用统一的编码器(languagebind\imagebind),并只利用可见光数据进行对齐和指令微调训练。

而我因为某种原因不得不用红外数据来微调MLLM,为此我进行了一些调研和探索。

红外领域数据集统计

在这里插入图片描述
可见,传统红外数据有以下几个问题:

  • 任务数量少:限于行人检测、目标检测、目标追踪等少数几个任务(无法像insruct-BLIP一样达到指令数据的多样性)
  • 模态单一:限于红外单模态/红外-可见光融合
  • 数据量少:相比于可见光数据集动辄M级的数据(cc12m/cc3m),红外的数据差了3-4个数量级
  • 图像领域(场景)单一:相比COCO从web上收集并处理得到的多样数据,这些由专业设备采集的图像往往局限于某一个单一区域或是一段连续帧。例如LLVIP就是来自某一街道固定场景下的图像。

因此,采用BLIP2/LLava的二阶段训练,如果只利用红外数据,难以有很好的效果。

version 1.0:参考llava构造指令数据集
benchmark:video-llava

【待补充】

思路

【待】

  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值