第一个包含百万图像文本对的时尚数据集-CSDN博客

本文链接：https://blog.csdn.net/AIGCer/article/details/134757754

文本驱动的时尚合成和设计是AIGC中极为有价值的一部分，具有在传统时尚产业中引发巨大革命的潜力。为了推动文本驱动的时尚合成和设计的研究，引入了一个新的数据集，包括一百万张高分辨率的时尚图像，带有丰富的结构化文本描述（FIRST）。在FIRST中，涵盖了广泛的服装类别，每个图像都配对有多层次的结构化文本描述。在经过FIRST训练的流行生成模型上进行的实验证明了FIRST的必要性。诚邀大家进一步开发更智能的时尚合成和设计系统，基于该数据集使时尚设计更具创造性和想象力。

介绍

利用尖端的深度学习技术的时尚合成和设计，彻底改变了创造和可视化服装的方式，为时尚产业动态需求提供个性化和可扩展的解决方案。除了高质量的生成之外，一个出色的智能时尚设计系统应该方便与之交互，并在解放生产力方面发挥重要作用。

自然而然，文本描述被采用为这样一个系统的交互界面。随着扩散模型的出现和演进，文本到图像的任务受到了更多关注，并涌现出各种文本驱动的生成模型，具有极大的增强能力。在这些模型中，stable diffusion因其代码的可用性和在LAION-5B上训练的参数而脱颖而出，成为二次开发的流行基础模型。然而，stable diffusion是为通用创造力而训练的。它并不很好地理解复杂的时尚设计元素和抽象概念，这导致生成结果的下降并减弱了stable diffusion对图像的文本驱动可控性。下图1显示了SDXL生成的一些失败案例。尽管可以通过使用微调技术在小规模时尚文本-图像对上有效地训练stable diffusion，以加强其对时尚概念和视觉元素之间对应关系的理解，但这样的小规模时尚图像仍然受到有限的创造力和想象力的限制，因为它们具有不足和无结构的文本描述。

已有的研究发布了一些时尚数据集。然而，它们没有为时尚图像提供文本描述。而其他研究标注图像与配对文本，它们要么有简单的短文本，没有人体模型和背景的特点，这两者在时尚设计中都起着突出的作用，要么只有小规模的图像-文本对。所有前述的数据集都不适用于时尚设计系统。

为揭示时尚设计的力量并鼓励社区构建强大的时尚设计系统，作者提出了一个大规模的时尚数据集，包括具有丰富结构化文本描述的高分辨率时尚图像（FIRST）。FIRST包括来自世界一流设计师的众多时尚物品和风格，为生成模型创造无限的空间。为了获得配对的文本，首先利用GPT-4v根据作者精心设计的提示分层生成详细的描述。然后，通过人工修订生成的文本，以确保没有微妙的描述和逻辑错误。还开发了一个Web应用程序，以有效地将图像分发给标注者。这是第一个包含百万图像文本对的时尚数据集。

在本文中，基于FIRST提出了两个挑战。第一个挑战是如何扩展扩散模型以接受更长的文本作为输入。在FIRST中，每个文本描述由几乎一千个tokens组成以进行详细说明。然而，主导的基于扩散的算法对tokens数量有严格的限制，因为它们配备有需要输入tokens数量为77的CLIP。即使SDXL添加了另一个OpenCLIP模型作为第二个文本编码器，它仍然不能满足时尚行业的实际需求。第二个挑战是如何基于少数共享相同设计理念的参考来合成一系列时尚。集合是时尚设计中的一个专业术语。通常，不同的时尚类别出现在一个系列中，它们共享一部分时尚元素和概念。时尚设计系统通过生成集合能够显著减少繁琐的设计工作。将很快发布FIRST并邀请更多的研究人员对这两个挑战表示关注。

总之，本文的贡献如下：

介绍了第一个包含百万实例的大规模时尚生成数据集，称为FIRST。该数据集包括分层和结构化的文本标注，适用于训练文本控制的时尚生成模型。此外，在该数据集上提出了两个挑战。
初步的定量和定性实验证明，FIRST能够有效提高stable diffusion对时尚的生成质量，并改善文本对生成图像的控制。

FIRST 数据集

本节将从四个不同的方面概述FIRST。从数据收集、数据清洗、数据标注和数据属性四个方面进行讨论，每个方面都需要大量的人力资源。通过详细介绍以上四个方面，展现了 FIRST 的细节。最后，将 FIRST 与其他时尚数据集进行比较，并深入探讨它们之间的区别。

数据收集

原始图像主要有两个来源。一来源于互联网。设计并开发了分布式网络机器人，能够从公开可访问的媒体站点、搜索引擎和时尚网站中抓取大量时尚图像。需要注意的是，在抓取图像时，验证了对这些网站进行数据抓取的合法性以及图像的合法性，以确保这些图像可用于学术研究。另一来源是与作者有商业合作关系的服装制造商。他们提供最高质量和高分辨率的时尚图像，并获得了作者利用这些图像进行研究的许可。总的原始图像数量为1,124,371。

数据清洗

原始图像中的一部分来自互联网，其中包含总共482,339张图像。这些图像中有一部分质量非常低，因此无法用于训练生成模型。例如，其中一部分图像的分辨率非常低，其中一些甚至包含可见的水印。这部分图像会影响生成的质量，并增加图像标注的难度。为了提高构建的数据集的整体质量，需要进一步清洗原始图像。数据清洗的原则包括（1）丢弃分辨率低于512x512的图像（2）丢弃带有水印的图像（3）丢弃与时尚内容无关的图像（4）丢弃时尚太小的图像。这项劳动密集的数据清洗工作由人工完成。作者雇佣了100名大学生，将图像分发给每个人。按照标准进行清洗后，剩余的图像被返还给作者。清洗后，总图像数为1,003,451。

数据标注

为数据集中的每个图像添加标题是最费时的任务之一，耗费了大量的人力资源。在有限的时间内，通过人工编写来精心描述一百万张时尚图像是不可能的，因此将采用 GPT-4V 和人工编写相结合的方式。首先，定义了一个特定的提示，引导 GPT-4V 为每个图像生成分层次的文本描述。考虑到背景和模特在时装秀中起着至关重要的作用，共同创造了一种全面的视觉和情感体验，有助于传达设计师的创意理念和时尚的本质，因此有必要将背景和模特的文本添加到最终的标注中。具体而言，是让 GPT-4V 描述图像的三个层次：背景、模特和服装。对于背景，GPT-4V 捕捉图像所在环境的细节和整体风格。之后，GPT-4V 开始描述图像中模特的外貌和体态。在最后一个层次，GPT-4V 以从粗到细的方式关注服装的信息。粗略描述包括颜色、类别、质地、材料和形状，而精细描述则注意小配饰和物品。然而，GPT-4V 不能保证每个文本的正确性和对应性。因此，需要修改生成的内容。为此，作者雇佣了500名主修时装设计的大学生来检查标注。每名学生被分配了2,007张带有配对文本的图像。他们阅读文本并将其与图像对齐。完成整个过程需要40天。下图5显示了学生用于修订标注的工具。该网络工具使用中文作为默认语言，将中文文本翻译成英文文本。

数据属性

数据集具有四个独特的属性：平衡的服装类别、多种摄影场景、分层标注和系列，以下对每个属性进行描述。

「平衡的服装类别」。服装类别的丰富性对于时尚合成和设计任务至关重要。FIRST 包含 21 种不同的服装类别，如毛衣、夹克、裙子、手提包、靴子等。类别的丰富性为生成模型提供了更多的学习模板，从而增强了它们的创造力。这些服装类别的类别分布如图4所示。图4显示，大多数类别在总数上具有相似的数量级。这种平衡的分布允许生成模型平等地学习每个类别的概念，并避免在训练过程中被次要类别支配。基于 FIRST，还可以在少样本/长尾学习设置中轻松构建长尾类别分布。

「多种摄影场景」。通常，时尚图像根据设计的核心概念在不同场景中拍摄，FIRST 中的图像也由不同的摄影场景组成。在 FIRST 中，摄影场景可以分为5个类别：风景、建筑、街道、T台和文化，每个类别都包含大量具有不同背景的时尚图像。图2展示了每个场景的示例。图6 展示了所有类型场景的分布。这些类别涵盖了主要时尚摄影背景的大部分内容，并满足了设计师对多样化展示背景的实际需求。对于多才多艺的时尚设计系统，除了能够生成模特和服装之外，还应该能够自适应地将服装和模特与适当的摄影背景匹配，使时尚展示更加合理。FIRST 数据集为实现这一目标提供了基础。

「分层标注」。标注层次结构如下图3所示。逐渐从全局背景向局部时尚项目转化时尚图像的描述。此层次结构的哲学是获得一个组织良好的数据集。对于背景，主要关注环境、整体风格和滤镜。对于模特，除了外貌和体态，还考虑姿态和状态，这也是时尚展览的重要部分。对于服装，遵循类似的层次结构。首先以包括时尚造型、颜色方案、纺织品和时尚设计理念在内的宏观视图来描述服装。然后，从整体视图继续描述上衣、裤子和鞋子。最后，提取口袋、袖子或其他小配饰的特征。根据上述规则，为每个图像配对一个文本，总共获得了 1,003,451 个标签。下图3显示了文本标签的层次结构和示例。这样大规模而精细的文本描述是首次。

「系列」。为了鼓励社区设计能够创建时装系列的算法或系统，通过文件名保留了关于系列的信息。将每个图像文件重新命名为其发布日期、设计师姓名、发布者和唯一系列 ID。FIRST 中的时尚图像可以分为 22,299 个系列。图显示了一些系列，可以发现每个系列都遵循相同的视觉模式。

比较

时尚相关数据集的领域丰富多样，有许多集合专为计算机视觉领域内的各种任务服务。本文提出的FIRST目前在规模上是与其他数据集相比最大的数据集，并且具有最丰富的文本标注。

在现有开源时尚数据集的规模方面，FIRST 的数据集体积比 SHHQ 大4.4 倍，远大于其他数据集（相对于 DeepFashion 大 7 倍，相对于 DeepFashion-Multimodal 大 25 倍，相对于 VITON 大 61 倍）。

在文本标注方面，DeepFashion-MultiModal 是所有时尚数据集中与FIRST 最相似的数据集，它是一个大规模高质量的人类数据集，具有丰富的多模态标注，包含 44,096 张高分辨率人类图像。它还为每个图像提供了文本描述。然而，Deepfashion-Multimodal 仅描述服装长度和布料纹理，而 FIRST 不仅包括时尚风格、颜色和衣服哲学，还描绘了模特和全局背景，提供了更全面的时尚知识。

在摄影场景方面，FIRST 中的图像是在各种场景中拍摄的，其丰富性大于其他时尚数据集。相反，DeepFashion-MultiModal、VITON-HD 简单地使用纯白背景。SHHQ 收集了在不同场景中拍摄的图像，但仍然不如作者提出的 FIRST 多样。

First 数据集最独特的特点是根据各自系列对服装进行精细分类，这在其他时尚数据集中明显缺失，这些数据集通常排列得较为杂乱。这种有意识和系统的分类不仅反映了时尚设计的固有结构，还为能够自动生成基于系列的连贯时尚系列的模型的发展奠定了基础，从而推动了时尚行业的自动化前沿。

总之，FIRST 提出了最大量的时尚图像，具有最丰富的背景，并且在所有时尚数据集中提供了独特且层次化的文本标注。表1 总结了这些数据集的差异。

挑战

首要挑战是增强扩展文本长度输入的扩散模型。在First 数据集中，每个文本描述符包含近千个tokens，以概括详细的细微差别。然而，当前的扩散模型方法受到令人困扰的限制，这是由于它们依赖于 CLIP 结构，该结构规定了最大tokens数为 77。这种限制在时尚领域显然不足以满足细节要求，细节在这个领域很重要。尽管 SDXL 模型尝试通过使用双 CLIP 编码器绕过这个限制，但它仍然无法满足时尚行业应用的全面需求，其中扩展的描述能力至关重要。因此，推动这些模型处理更长文本输入仍然是当前能力和行业需求之间的迫切需求。

第二个挑战是合成源自单一设计理念和灵感的连贯时尚系列。在时尚设计领域，“系列”指的是一组服装的集合，尽管在服装类别上有所不同，但与共同的美学和概念叙事产生共鸣。这些不同的时尚单品在设计师独特愿景的统一视野下融合在一起，具有深刻的抽象性，甚至连一些时尚专业人员也难以理解。识别和概括系列灵感的本质是一项相当艰巨的任务，因为它不仅需要理解单个项目，还需要欣赏将它们联系在一起的主题和元素的微妙相互作用。通过使时尚设计系统能够自主生成这样的系列，可以减轻时尚服装设计师在设计过程中所涉及的大量手动工作。然而，由于将抽象设计灵感转化为保持整个系列中一致的视觉和风格语言的切实时尚单品的复杂性，这项任务充满了复杂性。

实验

为了验证First数据集的进步和必要性，并说明提出的挑战的重要性，本文使用的数据对stable diffusion进行微调，并分析生成的结果，突显其中的不足之处。另一方面，将在微调前后由stable diffusion生成的图像分发给负责评估哪个生成质量更高的志愿者。请注意，这些志愿者都具有一定水平的时尚设计专业知识。

实施

本文选择了stable diffusion模型作为基础，因为它在高质量图像生成方面已被证明是有效的。模型架构没有被修改；然而，更新超参数以更好地适应First数据集的特征。数据集分为训练集（80%）和验证集（20%）。本文使用AdamW优化器在时尚数据集上对预训练的stable diffusion模型进行了50个epoch的微调，学习速率为1e-5，每15个epoch减小一次。由于 GPU 内存限制，使用batch size为 256。微调利用了针对图像领域量身定制的去噪目标，强调纹理和细节的保留。实现使用了 PyTorch 2.0 深度学习框架。

定量与定性结果

在研究中，采用了两个指标：FID（Fréchet Inception Distance）和 CLIP-S（CLIP Score）。FID 用作图像生成质量的指标，而 CLIP-S 反映了输入语言对生成图像的控制能力。下表2 显示了在 FIRST 上微调前后stable diffusion的 FID 和 CLIP-S（CLIP 分数）。可以得出结论，在数据集上微调stable diffusion模型后，性能在验证集上有显著提升。在分辨率为 256x192 时，FID 减小了 12.36，而 CLIP-S 增加了 3.81；在分辨率为 512x384 时，FID 减小了 12.41，CLIP-S 增加了 3.48。这种优化表明，定制的数据集对于时尚合成和设计至关重要，因为它可以改善生成质量和语言控制。本文还在图 8 中可视化了两个模型在分辨率为 512x384 时的采样结果。可以看到原始的stable diffusion模型未能很好地捕捉输入文本的细节。

人工反馈

本文还将不同模型在微调前后生成的结果分发给随机选择的 100 名志愿者，每个人收到一对不同的图像。每对图像中的两幅图都是在相同的文本提示下生成的。志愿者不知道图像和模型之间的对应关系，他们被要求选择更好地匹配文本描述的图像和生成质量更高的图像，对选择进行了统计。结果如图 7 所示。可以观察到，有 79 人认为微调后模型生成的图像更好地与输入文本匹配，而有 62 人认为生成质量有所提高。

结论

本文介绍了一个新的大规模时尚数据集 FIRST，包含一百万张多样化的时尚图像和丰富的分层文本标注。初步实验表明，这些图像文本对可以用于提高基于扩散的生成模型生成服装的质量，并增强文本到图像的能力，从而促进先进的服装合成和设计系统的发展。基于 FIRST，还提出了两个挑战：长文本提示问题和服装集合生成。这两个挑战可以激发社区开发更强大服装设计器的兴趣。

在未来，将在两个方面改进现有工作。一方面，将继续增加数据集的规模，进一步提高图像标注的质量，并计划丰富数据的多样性。另一方面，将为提出的挑战设计一个简单而有效的基线模型，作为社区的参考。