[论文笔记] LLaVA

一、LLaVA 论文中的主要工作和实验结果

  1. Existing Gap: 之前的大部分工作都在做模态对齐,做图片的 representation learning,而没有针对 ChatBot(多轮对话,指令理解)这种场景优化。

  2. Contribution: 这篇工作已经在 BLIP-2 之后了,所以 Image 的理解能力不是 LLaVA 希望提升的重点,LLaVA 是想提升多模态模型的 Instruction-Following ability,也就是特定的多轮 QA 场景。

  3. 数据构造:构造了三种 Instruction 的数据,包括多轮对话图片描述复杂推理。其中,图片描述是从多轮对话中选取出来的。分别构造了 58k、23k 和 77k 数据。

  4. <
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值