![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
多模态大模型
文章平均质量分 94
夏洛特兰兰
这个作者很懒,什么都没留下…
展开
-
LLaVA论文(Visual Instruction Tuning)阅读笔记
背景:使用机器生成的指令跟随数据(machine-generated instruction-following data)对大语言模型(LLM)进行指令调整可以增强它的零样本能力。本文旨在将这种思想扩展到多模态领域。本文的贡献:展示了第一个基于生成多模态指令跟随数据集。模型。LLaVA模型通过连接视觉编码器和语言模型,实现了通用的视觉和语言理解能力。LLaVA具有不错的多模态对话能力,在未见过的图像和指令上有时达到多模态GPT-4的水准(85.1%的相对得分)。原创 2023-12-18 22:53:27 · 1915 阅读 · 1 评论 -
LLaVA项目使用说明(一)运行Demo
根据LLaVA项目配置运行环境及运行Demo时遇到的一些问题。原创 2023-12-18 22:23:40 · 3801 阅读 · 6 评论 -
BioMed-CLIP 论文阅读笔记
本文聚焦于将VLP(vision-language processing)拓展到生物医学领域,介绍了一种迄今为止最大的生物医学VLP研究(使用了从PubMed Central中提取的15M 图像文本对)原创 2023-12-09 00:39:43 · 1631 阅读 · 0 评论 -
LLaVA-Med 论文阅读笔记
本文提出了一种经济有效的方法训练一个可以回答生物医学图像开放研究问题的视觉-语言对话助手。原创 2023-12-03 02:28:27 · 1363 阅读 · 2 评论