图文生成领域常用的数据集——学习记录(刚整理完)

目录

 图文生成任务按形式分类:

 常用数据集直达:

Flickr 8K Dataset 生活场景八千余张:

 DeepFashion时尚服装图像:

CelebA-Dialog Dataset人脸数据集

CUB-200-2011鸟类数据集

🔖 cub200_2011数据集结构简介(解压后)

📁 文件/文件夹解释

1. images/

2. images.txt

3. image_class_labels.txt

4. train_test_split.txt

5. classes.txt

6. bounding_boxes.txt

7. attributes/ 和 parts/(可选用,细粒度任务中常用)

attributes/

parts/

✅ 一般用法(加载方式参考)



 图文生成任务按形式分类:

 
可分为四类:①文本生成图像,根据描述生成对应图像,如“草地上奔跑的白色小狗”;②图像生成文本,对图像生成描述,如风景照对应“青山绿水,白云缭绕”;③图文协同生成,同时生成图像和文本内容,如故事配图;④图像生成图像,输入图像生成变体,如黑白图上色或风格迁移。

 常用数据集直达:



Flickr 8K Dataset 生活场景八千余张

 Flickr8k数据集包含8000张日常生活场景图片,每张图配有5条人工写的英文描述,适用于图文生成和图像理解任务。图像存放在Flicker8k_Dataset/中,描述在Flickr8k.token.txt,格式为:image#idx\tcaption,如1000268201_693b08cb0e.jpg  A child in a pink dress is climbing...。可按图名聚合5条描述作为prompt,用于训练或评估图文生成模型,如Stable Diffusion的文本生成图或BLIP的图文匹配任务,适合自然语言更丰富的生成实验。

 
DeepFashion时尚服装图像


DeepFashion-MultiModal 是一个多模态服饰数据集,共约12GB。包含 44,096 张服饰图片(750×1101),图像在 image/ 文件夹中。textual descriptions/ 提供每张图的自然语言描述(JSON格式),适合文本生成图任务。DensePose/ 提供姿态贴图,parsing/ 是服饰分割标签,keypoints/ 含关键点标注,labels/ 提供服装的形状、材质和颜色等额外标签。该数据集支持图文生成、服装识别、人体解析等多种视觉与文本联合任务,适用于多模态研究与服饰相关生成实验。



CelebA-Dialog Dataset人脸数据集

 CelebA-Dialog 是一个多模态人脸数据集,扩展自 CelebA,包含 30,000 张人脸图像及对应对话式文本描述,适合图文生成与多轮对话生成任务。图像位于 images/,每张图配有多轮对话,保存在 JSON 或 TXT 文件中,内容涵盖外貌、情感、身份等。还提供属性标签(如发型、性别、微笑等)用于辅助生成或分类。该数据集支持任务包括文本生成图、人脸属性控制生成、图文对话建模等,适合人脸相关的多模态研究与人机交互应用。

CUB-200-2011鸟类数据集

网站有时进不去,可以通过百度云下载。
百度云链接:链接: https://pan.baidu.com/s/1o60hA0qrupDjtMGPVCke3A 密码: u0sr

CUB-200-2011 是一个常用于图像分类、细粒度图像识别(如鸟类识别)和图像生成任务的数据集,里面大概有 200种鸟类,共11788张图像
每个文件夹或文件都有它的含义,下面我给你详细解释一下每个文件的作用(按原始数据集的结构来):


🔖 cub200_2011数据集结构简介(解压后)

CUB_200_2011/
├── attributes/
├── images/
├── images.txt
├── image_class_labels.txt
├── train_test_split.txt
├── classes.txt
├── bounding_boxes.txt
├── parts/
├── readme.txt

📁 文件/文件夹解释

1. images/
  • 存放所有的图像,按类别分成子文件夹(如 001.Black_footed_Albatross/),每个子文件夹里是这类鸟的图片。

  • 图片文件名格式一般是:Black_Footed_Albatross_0001_796111.jpg


2. images.txt
  • 每张图片的编号和对应的路径(相对路径)

  • 示例:

    1 001.Black_footed_Albatross/Black_Footed_Albatross_0001_796111.jpg
    2 001.Black_footed_Albatross/Black_Footed_Albatross_0002_55.jpg
    ...
    

    📝 一般在加载图片数据时会用到这个做索引。


3. image_class_labels.txt
  • 每张图的类别编号(从 1 到 200)

  • 示例:

    1 1
    2 1
    3 2
    ...
    

    说明第1张图是第1类鸟,第3张图是第2类鸟。


4. train_test_split.txt
  • 指明哪些图片用于训练,哪些用于测试。

  • 示例:

    1 1
    2 1
    3 0
    ...
    

    1表示训练集,0表示测试集。


5. classes.txt
  • 所有的200个类别及其编号。

  • 示例:

    1 Black_footed_Albatross
    2 Laysan_Albatross
    ...
    

6. bounding_boxes.txt
  • 每张图片的目标检测框(bounding box):image_id x y width height

  • 示例:

    1 86.0 73.0 299.0 255.0
    ...
    

7. attributes/parts/(可选用,细粒度任务中常用)
attributes/
  • 描述鸟的属性(颜色、形状、嘴型、羽毛等)

  • 常见文件:

    • image_attribute_labels.txt:图像中有哪些属性

    • attributes.txt:属性的编号和名称

      1 has_bill_shape::curved
      2 has_wing_color::brown
      ...
      
parts/
  • 标注鸟的关键点(如喙、眼睛、脚等坐标)

  • 常见文件:

    • part_locs.txt

      image_id part_id x y visible
      1 1 132.0 139.0 1
      

✅ 一般用法(加载方式参考)

在做分类、检测、生成任务时,一般会用:

  • images.txt 获取路径

  • image_class_labels.txt 获取标签

  • train_test_split.txt 区分训练/测试

  • bounding_boxes.txt 如果是做目标检测/裁剪等


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值