书生·浦语大模型实战营之XTuner多模态训练与测试

段智华

已于 2024-04-16 21:46:17 修改

阅读量125

点赞数

分类专栏： AI & Big Data案例实战课程文章标签： InternLM2

于 2024-04-16 19:45:00 首次发布

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/137808649

版权

AI & Big Data案例实战课程专栏收录该内容

167 篇文章 337 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

书生·浦语大模型实战营之XTuner多模态训练与测试

目录

XTuner多模态训练与测试
给LLM装上电子眼：多模态LLM原理简介
- 文本单模态
- 文本+图像多模态
电子眼：LLaVA方案简介
- LLaVA训练阶段示意图
- LLaVA测试阶段示意图
项目实践

在这里插入图片描述

XTuner多模态训练与测试

在本节课中，我们将学习使用XTuner微调多模态LLM的内容，本部分需要的GPU资源为24GB 30% 的 A100。

这是学完本节内容后的多模态LLM性能效果展示：

Finetune前的多模态LLM(InternLM_Chat_1.8B_llava)：只会给图像打标题

在这里插入图片描述

Finetune后的多模态LLM(InternLM_Chat_1.8B_llava)：会根据图像回答问题了

在这里插入图片描述

给LLM装上电子眼：多模态LLM原理简介

文本单模态

在这里插入图片描述

文本+图像多模态

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
书生·浦语大模型实战营之XTuner多模态训练与测试

书生·浦语大模型实战营之XTuner多模态训练与测试在本节课中，我们将学习使用XTuner微调多模态LLM的内容，本部分需要的GPU资源为24GB 30% 的 A100。这是学完本节内容后的多模态LLM性能效果展示：Haotian Liu等使用GPT-4V对图像数据生成描述，以此构建出大量 – 的数据对。利用这些数据对，配合文本单模态LLM，训练出一个Image Projector。所使用的文本单模型LLM和训练出来的Image Projector，统称为LLaVA模型LLaVA: Large Lang
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

段智华 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。