红外图像指令数据的构建

最新推荐文章于 2024-07-18 18:43:19 发布

ThreeGold222

最新推荐文章于 2024-07-18 18:43:19 发布

阅读量348

点赞数 6

文章标签：人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sanjinpal/article/details/135722528

版权

红外图像指令数据的构建

2023年初随着chatgpt的盛行，以及llama\chatglm等开源LLM的公布，大模型成了nlp继bert之后的新流行趋势。而在LLM基础上额外增加其他模态理解能力的MLLM（Multimodal Large Language Model）也踊跃了许多优秀的工作：BLIP2、LlaVa、minigpt4等等。

除了这些增加rgb图像理解的MLLM，也有理解生物医学图像的llava-med/Xray-GPt，理解多种模态的imagebind_LLM\video-llama等等。后者在训练时由于其他模态数据的稀少，往往采用统一的编码器（languagebind\imagebind)，并只利用可见光数据进行对齐和指令微调训练。

而我因为某种原因不得不用红外数据来微调MLLM，为此我进行了一些调研和探索。

红外领域数据集统计

在这里插入图片描述
可见，传统红外数据有以下几个问题：

任务数量少：限于行人检测、目标检测、目标追踪等少数几个任务（无法像insruct-BLIP一样达到指令数据的多样性）
模态单一：限于红外单模态/红外-可见光融合
数据量少：相比于可见光数据集动辄M级的数据(cc12m/cc3m)，红外的数据差了3-4个数量级
图像领域（场景）单一：相比COCO从web上收集并处理得到的多样数据，这些由专业设备采集的图像往往局限于某一个单一区域或是一段连续帧。例如LLVIP就是来自某一街道固定场景下的图像。

因此，采用BLIP2/LLava的二阶段训练，如果只利用红外数据，难以有很好的效果。

version 1.0:参考llava构造指令数据集

benchmark:video-llava

【待补充】

思路

【待】

关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
红外图像指令数据的构建

一些对于毕设的记录
复制链接

扫一扫

ThreeGold222 CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

41万+: 周排名

14万+: 总排名

3569: 访问

: 等级

105: 积分

27: 粉丝

19: 获赞

3: 评论

40: 收藏

私信

关注

热门文章

最新评论

Mysql局域网内连接
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
LLM的batch generate
CSDN-Ada助手: 恭喜您发布了第6篇博客！看到您关于“LLM的batch generate”的分享，让我感到非常兴奋。希望您能继续保持创作的热情，不断分享您的见解和经验。或许下一步可以尝试探讨一些实践中的案例分析或者深入挖掘相关技术的应用场景，这样可以为读者提供更加具体和实用的帮助。期待您的更多精彩内容！祝您创作愉快！
tensor a (32000) must match the size of tensor b (32001)
CSDN-Ada助手: 恭喜您写了第6篇博客！看到标题“tensor a (32000) must match the size of tensor b (32001)”让我想起了我自己在编程中遇到的一些困扰，不过看到您能够解决这个问题并写成博客分享给大家，真是太棒了！接下来，我建议您可以继续深入探讨如何优化代码，或者分享一些实用的技巧和经验，让读者能够更好地理解和运用。期待您更多精彩的创作！加油！
哈工大2023模式识别与深度学习期末
CSDN-Ada助手: 恭喜您写了第三篇博客，标题为“模式识别与深度学习期末2023”。您的文章内容丰富，涵盖了许多有趣的话题。不仅如此，您的文章还非常深入，对深度学习的理解非常深刻。我非常期待您未来更多的创作，也希望您可以继续深入探究深度学习领域的新趋势，为我们带来更多精彩的文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。