[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（1）-CSDN博客

本文链接：https://blog.csdn.net/FlowerLoveJava/article/details/141288782

多模态大模型源码阅读 - 语言模型篇（1）

吐槽
今日心得
- MQwen.py

吐槽

想要做一个以Qwen-7B-Insturct为language decoder, 以CLIP-VIT-14为vision encoder的image captioning模型，找了很多文章和库的源码，但是无奈都不怎么看得懂，刚开始打算直接给language decoder加上cross attention层对接vison encoder的图片编码结果，无奈不会写TAT，看了Qwen的源码半天都没搞懂这么多类是干什么的，心累。今天机缘巧合在Github上刷到一个北邮学生手搓的多模态模型，改了改Qwen的forward方法和其他一些配置，看起来比文献和transformers里的源码简易一些，遂打算好好钻研一下。

今日心得

由于今天找到这个repo的时间段比较晚，所以也没有看太多源码，浅谈一下今天阅读到的源码。

MQwen.py

在这个py文件里重写了Qwen的forward方法，可以看到从当前文件前中导入了QWenLMHeadModel等QWen源码中的类，继承了QWenModel的成员变量和方法，并且重写了QWenModel，初始化传入两个参数，otherConfig应该是自己的参数。

from .modeling_qwen import QWenLMHeadModel, QWenModel, BaseModelOutputWithPast, logger

class MQWenModel(QWenModel):
    def __init__(self, config, otherConfig):
        super().__init__(config)

        self.otherConfig = otherConfig

forward方法里传入的变量如下:
input_ids:输入序列的索引，将token映射为唯一的整数数字索引
images: 传递入的图像特征
past_key_values:用于存储过去计算得到的键值对，用来加速训练，减少重复计算
attention_mask:没什么好说的，注意力掩码，用来防止信息泄露，指定序列中参与注意力计算的部分
tojken_type_ids:指定不同类型的token
position_ids:老熟人，位置索引，提供token的位置信息
head_mask:和attention_mask相似，用于指定那些头的信息应该被忽略/关注
input_embeds:input_ids编码后的结果
use_cache:指定是否使用缓存的past_key_values加速训练
return_dict:指定返回值的形式是否为字典

def forward(
        self,
        input_ids: Optional[torch.LongTensor] = None,
        images: Optional[torch.Tensor] = None,
        past_key_values: Optional[Tuple