Overview
Better Captions are important for LMM training
一、ShareGPT4V
题目: ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
机构:中科大,上海人工智能实验室
论文: https://arxiv.org/pdf/2311.12793.pdf
代码:https://sharegpt4v.github.io/
任务: 多模态大模型CAPTION数据集质量优化
特点: 提出一个大规模更高质量的图像caption数据集
方法: 利用GPT4V
前置相关工作:LLaVA-Instruct,Qwen-VL
本文介绍了两个旨在优化多模态大模型Caption数据集的研究:ShareGPT4V和CAPSFUSION。ShareGPT4V通过GPT4V生成高质量图像描述,改进了预训练和微调阶段的数据质量,提升了模型性能。CAPSFUSION则提出融合原始和合成Caption的方法,解决了Synthetic Caption的局限性,提高了模型的常识理解和规模效益。
订阅专栏 解锁全文
918

被折叠的 条评论
为什么被折叠?



