论文:https://arxiv.org/abs/2310.03744
代码:https://github.com/haotian-liu/LLaVA#train
微调:https://github.com/haotian-liu/LLaVA/blob/main/docs/Finetune_Custom_Data.md
模型 | 论文时间 | Vision Encoder | VL Adapter | Projection Layer | LLM | 训练模块 |
---|---|---|---|---|---|---|
BLIP-2 |
论文:https://arxiv.org/abs/2310.03744
代码:https://github.com/haotian-liu/LLaVA#train
微调:https://github.com/haotian-liu/LLaVA/blob/main/docs/Finetune_Custom_Data.md
模型 | 论文时间 | Vision Encoder | VL Adapter | Projection Layer | LLM | 训练模块 |
---|---|---|---|---|---|---|
BLIP-2 |