VCR数据集各字段和属性解析

最新推荐文章于 2023-05-16 21:15:31 发布

薛定猫的谔w

最新推荐文章于 2023-05-16 21:15:31 发布

阅读量1.4k

点赞数 1

分类专栏：视觉常识推理文章标签：深度学习

本文链接：https://blog.csdn.net/csdn_tclz/article/details/107952861

版权

annotation files

数据集通过三个jsonl文件（train.jsonl，val.jsonl，test.jsonl）划分成train/val/test set. 在这些文件中，每一行代表一个JSON对象，代表相应数据集中的一个item。

一些重要标注

objects：
每张图片上被检测到的object的列表。如[“person”, “person”, “horse”, “horse”, “horse”, “horse”]
img_fn：
在vcr1images目录内的图片的文件名。如"lsmdc_3042_KARATE_KID/3042_KARATE_KID_02.01.03.657-02.01.12.044@0.jpg"
metadata_fn：
vcr1images目录内图片的json格式的信息描述。如
“lsmdc_3042_KARATE_KID/3042_KARATE_KID_02.01.03.657-02.01.12.044@0.json”（每张图片对应一个json描述文件）
question：
原始问题的分词版本。是由目标检测获取到的tag和自然语言组成的列表，形如 [“What”, “are”, [0,1], “doing”, “?”]，其中0和1对应objects中的元素的索引。
answer_choices：
对问题给出的可选答案列表。每个问题提供4个候选答案。格式和问题一致（ta

最低0.47元/天解锁文章

薛定猫的谔w

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
VCR数据集各字段和属性解析

annotation files数据集通过三个jsonl文件（train.jsonl，val.jsonl，test.jsonl）划分成train/val/test set. 在这些文件中，每一行代表一个JSON对象，代表相应数据集中的一个item。一些重要标注objects：每张图片上被检测到的object的列表。如[“person”, “person”, “horse”, “horse”, “horse”, “horse”]img_fn：在vcr1images目录内的图片的文件名。如"lsmd
复制链接

扫一扫

专栏目录