InternVL系列笔记

最新推荐文章于 2025-02-18 16:38:03 发布

Jenkinwey

最新推荐文章于 2025-02-18 16:38:03 发布

阅读量846

点赞数 5

文章标签：人工智能数据挖掘 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37591788/article/details/141307709

版权

目录

InternVL
InternVL1.5
- 动态分辨率
- 训练分为两个阶段
InternVL2

InternVL

在这里插入图片描述

三个创新点：

设计了6B的视觉编码器，8B的中间件（这是为了解决之前的工作中这两部分参数量小，无法和LLM的参数匹配的问题）
采用预训练的多语言LLaMA，来初始化中间件
稳定的训练策略：首先在大规模的粗糙的图文数据上启动对比学习，接着在fine-grained数据上进行生成学习

中间件QLLaMA：

其实就是QFormer的三个训练损失，也是用了query，只不过QFormer是传统的Transformer层，QLLaMA是直接用了LLaMA的权重初始化，QLLaMA相当于是用了现有能力的QFormer，参数量更大了

训练三个阶段

Vision-Language Contrastive Training：用了5B的数据，通过对比学习训练InternViT-6B（完全随机初始化）和 LLaMA-7B（pretrained weight初始化）
Vision-Language Generative Training：用了1B的数据，通过类似于QFormer的三个损失来训练，QLLaMA就是通过第一步预训练得到的LLaMA-7B初始化，训练cross-attention层和query
Supervised Fine-tuning：在QLLaMA后面加一个LLM，例如vicuna，类似于BLIP-2的第二阶段训练，可以只训练MLP，也可以MLP和QLLaMA一起训

下游任务使用

在这里插入图片描述

InternVL1.5

上面左图是InternVL1.5主要创新点，右图是模型结构。
基于InternViT-6B和InternLM2-20B，通过MLP连接，和InternVL不是一个路子；为了解决之前开源方法多采用固定分辨率的图像做训练带来的问题，采用动态高分辨率策略，将图像分成1-40个448*448的块

动态分辨率

在这里插入图片描述

训练分为两个阶段

第一阶段预训练：训练InternViT-6B和MLP，用来优化视觉提取
第二阶段微调：微调整个26B的参数，用来增强多模态能力

有两个版本：InternVL1.2使用的是Nous-Hermes-2-Yi-34B作为LLM，InternVL1.5是InternLM2-20B

InternVL2

https://internvl.github.io/blog/2024-07-02-InternVL-2.0/
在这里插入图片描述

模型结构还是类似于InternVL1.5
第一阶段训练MLP，第二阶段 ViT + MLP + LLM

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Jenkinwey 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。