[阅读笔记12][LLaVA-1.5]Improved Baselines with Visual Instruction Tuning

CCloth

已于 2024-04-20 21:01:02 修改

阅读量1k

点赞数 3

文章标签：笔记

于 2024-04-15 12:16:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55982600/article/details/137775937

版权

Lava1.5版本通过明确短回答格式、采用双层MLP、加入学术型数据集和提高图像分辨率与LLM规模，实现了对11个数据集的SOTA性能。与InstructBLIP和通义千问相比，其在数据量和优化策略上显示出优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.5版本是llava作者在23年10月提交的。

作者对原始的llava进行了四个很小的改进，之后就刷了11个数据集的sota。而且可以看到llava用于训练的数据量很小，与instructBLIP和通义千问比少多了。

然后这里就是llava1.5进行的四个小改进。
第一点是prompt明确短回答的格式，由于instructBlip无法在短格式vqa和长格式vqa中取得平衡，作者分析了两点原因，首先是它的prompt太模糊了，没有明确表明输出的格式是什么样的。然后就是它没有让LLM参与微调，这会加剧第一个问题。作者提出的解决方案就是在需要简短回答的场景下，将明确需要短回答的要求拼在问题后面，然后再去微调LLM。
第二点是使用双层MLP。
第三点是添加学术型数据集参与微调。具体添加的数据集就是右图中蓝色部分。
第四点是扩大输入图像分辨率和LLM规模。作者使用了336x336的图像，使LLM能更清楚的看到图像细节。LLM使用13b的vicuna，相比7b版本也有很大提升。
右图中蓝色代表添加数据集，红色代表模型结构变化，黄色代表输入图像分辨率变化。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。