Overview
Better Captions are important for LMM training
一、ShareGPT4V
题目: ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
机构:中科大,上海人工智能实验室
论文: https://arxiv.org/pdf/2311.12793.pdf
代码:https://sharegpt4v.github.io/
任务: 多模态大模型CAPTION数据集质量优化
特点: 提出一个大规模更高质量的图像caption数据集
方法: 利用GPT4V
前置相关工作:LLaVA-Instruct,Qwen-VL
![BLIP model](https://i-blog.csdnimg.cn/blog_migrate/6bf01c3249bcd602a3ae1ad39a8c5b0f.png)
1.1、Motivation
利用GPT4-V去构造更加详细且准确的图像文本描述(相比COCO-Caption以及LLaVA-Instruct等数据集而言)