[论文笔记] LLaVA

心心喵

于 2024-09-02 15:48:57 发布

阅读量75

点赞数

分类专栏：论文笔记文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Trance95/article/details/141820234

版权

论文笔记专栏收录该内容

108 篇文章 5 订阅 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

一、LLaVA 论文中的主要工作和实验结果

Existing Gap: 之前的大部分工作都在做模态对齐，做图片的 representation learning，而没有针对 ChatBot（多轮对话，指令理解）这种场景优化。
Contribution: 这篇工作已经在 BLIP-2 之后了，所以 Image 的理解能力不是 LLaVA 希望提升的重点，LLaVA 是想提升多模态模型的 Instruction-Following ability，也就是特定的多轮 QA 场景。
数据构造：构造了三种 Instruction 的数据，包括多轮对话、图片描述和复杂推理。其中，图片描述是从多轮对话中选取出来的。分别构造了 58k、23k 和 77k 数据。

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
[论文笔记] LLaVA

把 Image + Instruction 给到 LLaVA，把 GT 的 Image description 和 Instruction 给到 Text-only 的 GPT-4。如图中所示，对于每张图片都会生成一份多轮对话数据，包含 query 和 answer 部分，整体组织成一个序列 (q1, a1, q2, a2, qT, aT)，所有的 answer 作为模型回答，第一轮指令随机选择 (q1, 图片) 或者 (图片, q1)，后面就直接使用对应轮次 qT 了。Projection：使用。
复制链接

扫一扫

专栏目录

博客等级

码龄7年

724
原创

649
点赞

1061
收藏

5648
粉丝

关注

私信

热门文章

分类专栏

论文笔记付费 108篇
机器学习付费 33篇
算法导论付费 170篇
nlp 付费 115篇
redis
paddle
预训练语言模型 2篇
机器视觉
OT 3篇
强化学习 1篇
java 7篇
linux 146篇
RS 8篇
c 5篇
c++ 13篇
python 28篇
tensorflow2.0 7篇
深度学习 14篇
笔记
pytorch 7篇
LRFR 1篇
论文 2篇
cv 13篇

最新评论

[论文笔记] LLM-ICL可解释论文：标签词是锚点:理解语境学习的信息流视角 Label Words are Anchors
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] megatron 大模型超参搜索pipeline
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] eval-big-refactor lm_eval 每两个任务使用一个gpu，并保证端口未被使用
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] Do Llamas Work in English?On the Latent Language of Multilingual Transformers
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] LazyLLM: DYNAMIC TOKEN PRUNING FOR EFFICIENT LONG CONTEXT LLM INFERENCE（Token剪枝）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

心心喵 喵喵(*^▽^*）

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。