进阶岛 renwu4: InternVL 多模态模型部署微调实践

晓飞趋势

于 2024-09-15 19:44:14 发布

阅读量238

点赞数 4

分类专栏：大模型学习路线文章标签：人工智能

本文链接：https://blog.csdn.net/duankaifei/article/details/142287852

版权

大模型学习路线专栏收录该内容

14 篇文章 0 订阅

订阅专栏

进阶岛 renwu4: InternVL 多模态模型部署微调实践

任务: https://github.com/InternLM/Tutorial/blob/camp3/docs/L2/InternVL/task.md

follow 教学文档和视频使用QLoRA进行微调模型，复现微调效果，并能成功讲出梗图.
尝试使用LoRA，或调整xtuner的config，如LoRA rank，学习率。看模型Loss会如何变化，并记录调整后效果(选做，使用LoRA或调整config可以二选一)

文档： https://github.com/InternLM/Tutorial/tree/camp3/docs/L2/InternVL

任务

微调InterenVL使用xtuner。部署InternVL使用lmdeploy。

/root/InternLM/code/test_lmdeploy.py

test_lmdeploy.py


from lmdeploy import pipeline
from lmdeploy.vl import load_image

pipe = pipeline('/root/model/InternVL2-2B')

image = load_image('/root/InternLM/007aPnLRgy1hb39z0im50j30ci0el0wm.jpg')
response = pipe(('请你根据这张图片，讲一个脑洞大开的梗', image))
print(response.text)

微调前：
在这里插入图片描述

训练

NPROC_PER_NODE=1 xtuner train /root/InternLM/code/XTuner/xtuner/configs/internvl/v2/internvl_v2_internlm2_2b_qlora_finetune.py --work-dir /root/InternLM/work_dir/internvl_ft_run_8_filter --deepspeed deepspeed_zero1

合并权重&&模型转换

cd XTuner

transfer weights

python3 xtuner/configs/internvl/v1_5/convert_to_official.py xtuner/configs/internvl/v2/internvl_v2_internlm2_2b_qlora_finetune.py /root/InternLM/work_dir/internvl_ft_run_8_filter/iter_500.pth /root/InternLM/InternVL2-2B/

微调后效果对比

python /root/InternLM/code/test_lmdeploy.py

在这里插入图片描述

笔记

InternVL 是一种用于多模态任务的深度学习模型，旨在处理和理解多种类型的数据输入，如图像和文本。它结合了视觉和语言模型，能够执行复杂的跨模态任务，比如图文匹配、图像描述生成等。通过整合视觉特征和语言信息，InternVL 可以在多模态领域取得更好的表现

对于InternVL这个模型来说，它vision模块就是一个微调过的ViT，llm模块是一个InternLM的模型。对于视觉模块来说，它的特殊之处在Dynamic High Resolution。

InternVL独特的预处理模块：动态高分辨率，是为了让ViT模型能够尽可能获取到更细节的图像信息，提高视觉特征的表达能力。对于输入的图片，首先resize成448的倍数，然后按照预定义的尺寸比例从图片上crop对应的区域。

Pixel Shuffle在超分任务中是一个常见的操作，PyTorch中有官方实现，即nn.PixelShuffle(upscale_factor) 该类的作用就是将一个tensor中的元素值进行重排列，假设tensor维度为[B, C, H, W], PixelShuffle操作不仅可以改变tensor的通道数，也会改变特征图的大小。

这个项目是图片的微调。