LLaVA家族(视觉语言多模态)
文章平均质量分 96
视觉+语言大模型相关
曾小蛙
这个作者很懒,什么都没留下…
展开
-
【多模态+数据集】LLaVa1.5训练数据集解析(用于参考制作自己数据集)
多模态数据集制作原创 2024-04-16 18:34:03 · 5357 阅读 · 5 评论 -
【大语言视觉助手+LLaVA1.5】23.10.LLaVA-1.5改善后视觉语言大模型: Improved Baselines with Visual Instruction Tuning
23.10 LLaVA1.5的改进:1. 结构上,将视觉特征提取器从 CLIP-vit-L-14 (224x224图像输入)改为了CLIP-vit-L/336(将真实图像resize到**336x336**再输入编码器)2. 结构上,视觉特征从线性映射(单个神经元),改进为多层告感知机(MLP)3. 数据上,大量提高数据量,特别是视觉微调 158K到了560K。。4. 训练上,LLaVA1.5可以使用Lora微调原创 2024-03-21 12:10:39 · 2872 阅读 · 0 评论 -
【视觉语言模型+医学】23.06 LLaVA-Med(医学图片视觉助手): Training a Large Language-and-Vision Assistant for Biomedicine
23.06 LLaVA-Med 使用通用领域( general-domain)的 LLaVA 进行初始化.然后60W+6W的数据以课程学习方式(curriculum learning)持续训练(首先是**生物医学概念对齐**(biomedical concept alignment), 然后是全面的指令微调( instruction-tuning))。原创 2024-03-21 15:21:55 · 1919 阅读 · 0 评论 -
【视觉语言大模型】23.04.LLaVA1.0大语言模型视觉助手(视觉指令调优)GPT4-Vision丐版
LLaVA:LargeLanguageandVisionAssistant 多模态模型。对标的是GPT4-Vison模型,使聊天助手,具备了解析图片的能力。将视觉编码器(vision encoder)和LLM(large language model ,大语言模型)连接起来,原创 2024-03-19 15:20:14 · 1846 阅读 · 0 评论