图文生成领域常用的数据集——学习记录(刚整理完)-CSDN博客

Flickr8k数据集包含8000张日常生活场景图片，每张图配有5条人工写的英文描述，适用于图文生成和图像理解任务。图像存放在Flicker8k_Dataset/中，描述在Flickr8k.token.txt，格式为：image#idx\tcaption，如1000268201_693b08cb0e.jpg A child in a pink dress is climbing...。可按图名聚合5条描述作为prompt，用于训练或评估图文生成模型，如Stable Diffusion的文本生成图或BLIP的图文匹配任务，适合自然语言更丰富的生成实验。

DeepFashion时尚服装图像：

DeepFashion-MultiModal 是一个多模态服饰数据集，共约12GB。包含 44,096 张服饰图片（750×1101），图像在 image/ 文件夹中。textual descriptions/ 提供每张图的自然语言描述（JSON格式），适合文本生成图任务。DensePose/ 提供姿态贴图，parsing/ 是服饰分割标签，keypoints/ 含关键点标注，labels/ 提供服装的形状、材质和颜色等额外标签。该数据集支持图文生成、服装识别、人体解析等多种视觉与文本联合任务，适用于多模态研究与服饰相关生成实验。

CelebA-Dialog Dataset人脸数据集

CelebA-Dialog 是一个多模态人脸数据集，扩展自 CelebA，包含 30,000 张人脸图像及对应对话式文本描述，适合图文生成与多轮对话生成任务。图像位于 images/，每张图配有多轮对话，保存在 JSON 或 TXT 文件中，内容涵盖外貌、情感、身份等。还提供属性标签（如发型、性别、微笑等）用于辅助生成或分类。该数据集支持任务包括文本生成图、人脸属性控制生成、图文对话建模等，适合人脸相关的多模态研究与人机交互应用。

CUB-200-2011鸟类数据集

网站有时进不去，可以通过百度云下载。
百度云链接：链接: https://pan.baidu.com/s/1o60hA0qrupDjtMGPVCke3A 密码: u0sr

CUB-200-2011 是一个常用于图像分类、细粒度图像识别（如鸟类识别）和图像生成任务的数据集，里面大概有 200种鸟类，共11788张图像。
每个文件夹或文件都有它的含义，下面我给你详细解释一下每个文件的作用（按原始数据集的结构来）：

🔖 cub200_2011数据集结构简介（解压后）

CUB_200_2011/
├── attributes/
├── images/
├── images.txt
├── image_class_labels.txt
├── train_test_split.txt
├── classes.txt
├── bounding_boxes.txt
├── parts/
├── readme.txt

📁 文件/文件夹解释

1. `images/`

存放所有的图像，按类别分成子文件夹（如 001.Black_footed_Albatross/），每个子文件夹里是这类鸟的图片。
图片文件名格式一般是：Black_Footed_Albatross_0001_796111.jpg

2. `images.txt`

每张图片的编号和对应的路径（相对路径）

示例：

1 001.Black_footed_Albatross/Black_Footed_Albatross_0001_796111.jpg
2 001.Black_footed_Albatross/Black_Footed_Albatross_0002_55.jpg
...

📝 一般在加载图片数据时会用到这个做索引。

3. `image_class_labels.txt`

每张图的类别编号（从 1 到 200）
示例：
```
1 1
2 1
3 2
...
```
说明第1张图是第1类鸟，第3张图是第2类鸟。

4. `train_test_split.txt`

指明哪些图片用于训练，哪些用于测试。
示例：
```
1 1
2 1
3 0
...
```
1表示训练集，0表示测试集。

5. `classes.txt`

所有的200个类别及其编号。

示例：

1 Black_footed_Albatross
2 Laysan_Albatross
...

6. `bounding_boxes.txt`

每张图片的目标检测框（bounding box）：image_id x y width height
示例：
```
1 86.0 73.0 299.0 255.0
...
```

7. `attributes/` 和 `parts/`（可选用，细粒度任务中常用）

`attributes/`

描述鸟的属性（颜色、形状、嘴型、羽毛等）
常见文件：
- image_attribute_labels.txt：图像中有哪些属性
- attributes.txt：属性的编号和名称
```
1 has_bill_shape::curved
2 has_wing_color::brown
...
```

`parts/`

标注鸟的关键点（如喙、眼睛、脚等坐标）

常见文件：

part_locs.txt

image_id part_id x y visible
1 1 132.0 139.0 1

✅ 一般用法（加载方式参考）

在做分类、检测、生成任务时，一般会用：

images.txt 获取路径
image_class_labels.txt 获取标签
train_test_split.txt 区分训练/测试
bounding_boxes.txt 如果是做目标检测/裁剪等