目录
7. attributes/ 和 parts/(可选用,细粒度任务中常用)
图文生成任务按形式分类:
可分为四类:①文本生成图像,根据描述生成对应图像,如“草地上奔跑的白色小狗”;②图像生成文本,对图像生成描述,如风景照对应“青山绿水,白云缭绕”;③图文协同生成,同时生成图像和文本内容,如故事配图;④图像生成图像,输入图像生成变体,如黑白图上色或风格迁移。
常用数据集直达:
Flickr 8K Dataset 生活场景八千余张:
Flickr8k数据集包含8000张日常生活场景图片,每张图配有5条人工写的英文描述,适用于图文生成和图像理解任务。图像存放在Flicker8k_Dataset/
中,描述在Flickr8k.token.txt
,格式为:image#idx\tcaption
,如1000268201_693b08cb0e.jpg A child in a pink dress is climbing...
。可按图名聚合5条描述作为prompt,用于训练或评估图文生成模型,如Stable Diffusion的文本生成图或BLIP的图文匹配任务,适合自然语言更丰富的生成实验。
DeepFashion时尚服装图像:
DeepFashion-MultiModal 是一个多模态服饰数据集,共约12GB。包含 44,096 张服饰图片(750×1101),图像在 image/
文件夹中。textual descriptions/
提供每张图的自然语言描述(JSON格式),适合文本生成图任务。DensePose/
提供姿态贴图,parsing/
是服饰分割标签,keypoints/
含关键点标注,labels/
提供服装的形状、材质和颜色等额外标签。该数据集支持图文生成、服装识别、人体解析等多种视觉与文本联合任务,适用于多模态研究与服饰相关生成实验。
CelebA-Dialog Dataset人脸数据集
CelebA-Dialog 是一个多模态人脸数据集,扩展自 CelebA,包含 30,000 张人脸图像及对应对话式文本描述,适合图文生成与多轮对话生成任务。图像位于 images/
,每张图配有多轮对话,保存在 JSON 或 TXT 文件中,内容涵盖外貌、情感、身份等。还提供属性标签(如发型、性别、微笑等)用于辅助生成或分类。该数据集支持任务包括文本生成图、人脸属性控制生成、图文对话建模等,适合人脸相关的多模态研究与人机交互应用。
CUB-200-2011鸟类数据集
网站有时进不去,可以通过百度云下载。
百度云链接:链接: https://pan.baidu.com/s/1o60hA0qrupDjtMGPVCke3A 密码: u0sr
CUB-200-2011
是一个常用于图像分类、细粒度图像识别(如鸟类识别)和图像生成任务的数据集,里面大概有 200种鸟类,共11788张图像。
每个文件夹或文件都有它的含义,下面我给你详细解释一下每个文件的作用(按原始数据集的结构来):
🔖 cub200_2011数据集结构简介(解压后)
CUB_200_2011/
├── attributes/
├── images/
├── images.txt
├── image_class_labels.txt
├── train_test_split.txt
├── classes.txt
├── bounding_boxes.txt
├── parts/
├── readme.txt
📁 文件/文件夹解释
1. images/
-
存放所有的图像,按类别分成子文件夹(如
001.Black_footed_Albatross/
),每个子文件夹里是这类鸟的图片。 -
图片文件名格式一般是:
Black_Footed_Albatross_0001_796111.jpg
2. images.txt
-
每张图片的编号和对应的路径(相对路径)
-
示例:
1 001.Black_footed_Albatross/Black_Footed_Albatross_0001_796111.jpg 2 001.Black_footed_Albatross/Black_Footed_Albatross_0002_55.jpg ...
📝 一般在加载图片数据时会用到这个做索引。
3. image_class_labels.txt
-
每张图的类别编号(从 1 到 200)
-
示例:
1 1 2 1 3 2 ...
说明第1张图是第1类鸟,第3张图是第2类鸟。
4. train_test_split.txt
-
指明哪些图片用于训练,哪些用于测试。
-
示例:
1 1 2 1 3 0 ...
1表示训练集,0表示测试集。
5. classes.txt
-
所有的200个类别及其编号。
-
示例:
1 Black_footed_Albatross 2 Laysan_Albatross ...
6. bounding_boxes.txt
-
每张图片的目标检测框(bounding box):
image_id x y width height
-
示例:
1 86.0 73.0 299.0 255.0 ...
7. attributes/
和 parts/
(可选用,细粒度任务中常用)
attributes/
-
描述鸟的属性(颜色、形状、嘴型、羽毛等)
-
常见文件:
-
image_attribute_labels.txt
:图像中有哪些属性 -
attributes.txt
:属性的编号和名称1 has_bill_shape::curved 2 has_wing_color::brown ...
-
parts/
-
标注鸟的关键点(如喙、眼睛、脚等坐标)
-
常见文件:
-
part_locs.txt
image_id part_id x y visible 1 1 132.0 139.0 1
-
✅ 一般用法(加载方式参考)
在做分类、检测、生成任务时,一般会用:
-
images.txt
获取路径 -
image_class_labels.txt
获取标签 -
train_test_split.txt
区分训练/测试 -
bounding_boxes.txt
如果是做目标检测/裁剪等