LLaVA：分析图像和文本数据的开源模型

lichunericli

已于 2024-05-03 05:41:49 修改

阅读量1.6k

点赞数 7

文章标签：人工智能计算机视觉

于 2024-05-03 05:39:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lichunericli/article/details/138407511

版权

LLaVA是一款开源的大型多模态模型，结合CLIP视觉编码器与Vicuna聊天机器人，能理解和分析图像及文本数据。通过GPT-4生成指令跟随数据进行训练，它在对话、详细描述和复杂推理方面展现出先进性能，甚至在某些任务上超越SOTA模型。未来，LMM将在教育、安全和无障碍技术等领域带来变革。

摘要由CSDN通过智能技术生成

原文地址：analyzing-images-with-llava

2024 年 3 月 20 日

在过去的几个月里，ChatGPT 等各种大型语言模型（LLM）已进入商业市场，许多公司已成功地将 LLM 集成到其产品和服务中，极大地改变了我们与设备和互联网的交互方式。尽管取得了成功，但 LLM 有一个很大的局限性--它们无法摄取和分析图像。

图像是互联网上可用信息的主要组成部分（据估计，在线图像达 7500 亿张）。这些图片蕴含着大量有用的信息，如最新的美食、旅游或时尚趋势，能够从图片中分析和提取洞察力将使我们能够为企业及其客户带来更多价值。在这篇文章中，我们将探讨一个能够同时分析图像和文本数据的开源模型--LLaVA，它于去年 2023 年刚刚发布。

LLaVA LMM 聊天机器人简介

LLaVA 是一个端到端训练有素的大型多模态（LMM）模型，它将 CLIP 视觉编码器与 Vicuna 开源聊天机器人相结合，创建了一个通用的多模态聊天机器人。用户通过输入图像和包含一系列指令的文本提示与 LLaVA 进行交互。然后，LLaVA 将根据指令分析输入的图像，并输出描述图像内容的文本。

LLaVA 的创新研究贡献

LLaVA 论文对 LMM 的发展做出了以下贡献：

数据创建过程后的多模式指导。

高质量的数据是创建高性能模型的关键&#

最低0.47元/天解锁文章

lichunericli CSDN认证博客专家 CSDN认证企业博客

码龄9年

394: 原创

1万+: 周排名

2777: 总排名

67万+: 访问

: 等级

1万+: 积分

6851: 粉丝

1万+: 获赞

19: 评论

9634: 收藏

私信

关注

热门文章

分类专栏

经济学 2篇
沟通 1篇
人工智能 8篇
Java 2篇
缓存 4篇
数据库 9篇
架构 1篇
搜索引擎 4篇
消息队列 2篇
微服务 1篇
注意事项 1篇
LLM 应用实现总结 8篇
GIT 1篇
IM即时通讯 1篇

最新评论

拆解 Transformer 的训练过程
tjuwzan: 最近在看Transformer的知识，的确有些地方有点没搞明白，想先请教几个问题： 1. 本篇主要讲Transformer的训练环境，图上模型最右侧，也就是Decoder的下面，是Output Embedding, 最上面是Output，他们之间有关系吗？ 2. 训练，如果是传统的机器学习或者深度学习，如果是Supervised Learning的话，应该有输入，ground truth，以及loss function，但Transformer很少有人提这个，那么Transformer的学习过程是什么？Loss Function是什么？ 3. 还是训练问题，普通深度学习模型学习的大概是W and B，Transformer的学习是Wq, Wk, Wv吗？是如何学习的呢？尤其在第7节里描述：例如，对于计算 Query 矩阵，权重矩阵的行数必须与转置矩阵的列数相同，而权重矩阵的列数可以任意；例如，我们假设权重矩阵有 4 列。权重矩阵中的值介于 0 和 1 之间，随机初始化，当 Transformer 开始学习语料的含义时，这些值会更新。文中提到的三句话，是不是语料？咱们的例子中是不是就是用这三句话作为训练例子呢？ 4. 依然是文章中描述的，把when you play the game of thrones, you win or you die. 这句话有两个部分，前面部分作为输入，后面部分作为输出，那么第一句，I drink and I know things，这里面只有一句，怎么分输入和输出呢？ 5. 掩码的作用没太理解，可否解释一下呢？很多都说是为了让模型只参考前面，而不看后面，这句话还是没有真正理解。程序员出身，一直是按照程序员思维想弄清楚每个细节，但是NLP基础有点薄弱，理解一些思想有点难度。多谢解答
记录些MySQL题集（11）
来自赌徒的微笑: 太厉害了哥
Java内存模型（JMM）与Volatile关键字底层原理
Yunwushenyanying: 讲的太全面了！非常有帮助
记录些MySQL题集（4）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619168846。
DSPy入门：告别指令提示，拥抱编程之旅！
LK12mufc: 可以理解成，langchain和llamaindex需要自己写prompt。DSPY自动写prompt？？如果是这样，最终到LLM那里还是一样的呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。