第六节 LLava模型数据处理源码解读(input_ids/labels/attention_mask/image，下篇)

tangjunjun-owen

于 2024-06-21 20:45:00 发布

阅读量177

点赞数

分类专栏： LLaVA多模态大模型教程文章标签： LLAVA input_ids labels attention_mask LazySupervised 多模态大模型 LLaVA数据加工

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38252409/article/details/135509389

版权

LLaVA多模态大模型教程专栏收录该内容

21 篇文章 4 订阅 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

文章目录

前言
一、数据格式标签
二、LazySupervisedDataset的__gettitem__函数源码解读
三、图像处理
四、对话文本处理
五、对话文本处理(preprocess_v1)
六、dataloader(DataCollatorForSupervisedDataset)
- 1、input_ids与labels的pad
- 2、attention_mask获取

前言

本篇文章直接介绍llava模型数据加工部分，整体结构说明llava多模态模型输入数据格式，其中包含input_ids/labels/attention_mask与image格式，并给出对应代码位置与整个数据加工流程。最重要，通过debug给出数据解释与代码解读，也通过一个真实数据给出模型输入格式说明。当你阅读完此篇文章，绝对透彻理解llava数据加工过程与内容。上一篇文章给出了数据处理大轮廓，本篇文章将解读LazySupervisedDataset类的__getitem__函数内容。

一、数据格式标签

在后面解读模型前，我先给出llava数据格式标签，以便更好理解后面源码解读，其数据格式如下：

[
{
   
  "id": "000000319154",
  "image": "coco/train2017/000000319154.jpg",

了解本专栏

超级会员免费看

tangjunjun-owen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
第六节 LLava模型数据处理源码解读(input_ids/labels/attention_mask/image，下篇)

本篇文章直接介绍llava模型数据加工部分，整体结构说明llava多模态模型输入数据格式，其中包含input_ids/labels/attention_mask与image格式，并给出对应代码位置与整个数据加工流程。最重要，通过debug给出数据解释与代码解读，也通过一个真实数据给出模型输入格式说明。当你阅读完此篇文章，绝对透彻理解llava数据加工过程与内容。上一篇文章给出了数据处理大轮廓，本篇文章将解读LazySupervisedDataset类的__getitem__函数内容。
复制链接

扫一扫

专栏目录

tangjunjun-owen CSDN认证博客专家 CSDN认证企业博客

码龄7年

149: 原创

707: 周排名

1万+: 总排名

18万+: 访问

: 等级

2633: 积分

1万+: 粉丝

1012: 获赞

133: 评论

2049: 收藏

私信

关注

热门文章

分类专栏

最新评论

模拟多模态大模型gradio使用教程
黑白=_=: 博主知道如何在答案里显示图片吗
第一节 LLaVA模型安装、预测、训练详细教程
哈哈呐: 你好，我使用本地下载的cilp预训练模型时报错OSError: D:/path/clip-vit-large-patch14-336 does not appear to have a file named config.json. Checkout 'https://huggingface.co/D:/path/clip-vit-large-patch14-336/main' for available files.但是我的clip目录里是有config文件的，博主可以解答一下吗？谢谢
CLIP模型原理与代码实现详解
『追梦』选手: 强烈推荐，这个视频讲解的 CLIP 讲的很清晰：https://www.bilibili.com/video/BV1xM4m1m7vA/?vd_source=c9745e4447536b28b2b0735071d30bd6
跟踪指标预测代码(track eval)
CC_i: 想问一下在用yolov8检测的时候漏检特别严重是怎么回事，但是看论文里面漏检都没有这么严重
CLIP模型原理与代码实现详解
qq_45365992: 说得对，模型架构里面定义的那个维度就是768，我刚开始看到你说的这部分时候还以为我前面学vit的时候理解错了

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

tangjunjun-owen 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。