©Paperweekly 原创 · 作者 | Chunyuan Li
使用 GPT-4 进行视觉指令学习!Visual Instruction Tuning with GPT-4!
▲ Generated by GLIGEN (https://gligen.github.io/): A cute lava llama and glasses
我们分享了 LLaVA (Language-and-Vision Assistant),一款展示了某些近似多模态 GPT-4 水平能力的语言和视觉助手:
视觉聊天 (Visual Chat):相对得分达到了 GPT-4 的 85%
多模态推理任务的科学问答 (Science QA):达到了新的 SoTA 92.53%,超过了之前的最先进的方法:多模态思维链技术 (multimodal chain-of-thoughts)