多模态大模型综述: LLaVA, MiniGPT4
题目: Visual Instruction Tuning机构:微软论文:任务: 视觉指令微调(具备对话,推理的能力,rather than 图像描述)特点: 利用GPT4做数据生成,以及评测,视觉projection不想BLIP2一样是Q-Former,而是一个简单的映射层方法: LLM选择LLaMA,然后做视觉指令微调前置相关工作:GPT4, LLaMA, BLIP2, OpenFlamingo同期相似性工作:InstructBLIP。
复制链接