Visual Instruction Tuning: 用LLaVA近似多模态GPT-4

LLaVA是一个展示接近GPT-4水平的多模态语言和视觉助手,擅长视觉聊天和科学问答。在30张未见图像的多类型指令评估中,相对GPT-4得分达到85.1%。项目已开源,包括数据、论文、代码和模型。
摘要由CSDN通过智能技术生成

85f0e78d188637c4961a62393a6a84b7.gif

©Paperweekly 原创 · 作者 | Chunyuan Li

使用 GPT-4 进行视觉指令学习!Visual Instruction Tuning with GPT-4!

ebd2fcdb8d616b50c8c7199d3387c42b.jpeg

▲ Generated by GLIGEN (https://gligen.github.io/): A cute lava llama and glasses

我们分享了 LLaVA (Language-and-Vision Assistant),一款展示了某些近似多模态 GPT-4 水平能力的语言和视觉助手:

  • 视觉聊天 (Visual Chat):相对得分达到了 GPT-4 的 85%

  • 多模态推理任务的科学问答 (Science QA):达到了新的 SoTA 92.53%,超过了之前的最先进的方法:多模态思维链技术 (multimodal chain-of-thoughts)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值