[阅读笔记12][LLaVA-1.5]Improved Baselines with Visual Instruction Tuning

1.5版本是llava作者在23年10月提交的。

作者对原始的llava进行了四个很小的改进,之后就刷了11个数据集的sota。而且可以看到llava用于训练的数据量很小,与instructBLIP和通义千问比少多了。

然后这里就是llava1.5进行的四个小改进。
第一点是prompt明确短回答的格式,由于instructBlip无法在短格式vqa和长格式vqa中取得平衡,作者分析了两点原因,首先是它的prompt太模糊了,没有明确表明输出的格式是什么样的。然后就是它没有让LLM参与微调,这会加剧第一个问题。作者提出的解决方案就是在需要简短回答的场景下,将明确需要短回答的要求拼在问题后面,然后再去微调LLM。
第二点是使用双层MLP。
第三点是添加学术型数据集参与微调。具体添加的数据集就是右图中蓝色部分。
第四点是扩大输入图像分辨率和LLM规模。作者使用了336x336的图像,使LLM能更清楚的看到图像细节。LLM使用13b的vicuna,相比7b版本也有很大提升。
右图中蓝色代表添加数据集,红色代表模型结构变化,黄色代表输入图像分辨率变化。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值