llava
模型
输入图像 编码得到图像的embedding,经过投射层进行语义空间的转换 成为文本的embedding,然后使用LLM生成文本
图像编码器:CLIP ViT-L/14
文本编码器:vicuna
GPT-assisted Visual Instruction Data Generation
目的:将图像编码为LLM可识别的序列。
使用text-only GPT,将image-text pair转换为instruction-following version
原始数据:
转换之后的instruction-following data:
训练过程:
stage1:Pre-training for Feature Alignment,冻结视觉编码器和LLM,只训练投射层
将 CC3M 过滤为 595K 图像-文本对
stage2:Fine-tuning End-to-End,冻结视觉编码器,训练投射层和LLM
158K 个instruction-following data、ScienceQA组成的single turn conversation
总结
参考:https://zhuanlan.zhihu.com/p/653902791