文章目录
前言
本篇文章直接介绍llava模型数据加工部分,整体结构说明llava多模态模型输入数据格式,其中包含input_ids/labels/attention_mask与image格式,并给出对应代码位置与整个数据加工流程。最重要,通过debug给出数据解释与代码解读,也通过一个真实数据给出模型输入格式说明。当你阅读完此篇文章,绝对透彻理解llava数据加工过程与内容。上一篇文章给出了数据处理大轮廓,本篇文章将解读LazySupervisedDataset类的__getitem__函数内容。
一、数据格式标签
在后面解读模型前,我先给出llava数据格式标签,以便更好理解后面源码解读,其数据格式如下:
[
{
"id": "000000319154",
"image": "coco/train2017/000000319154.jpg",