【AI论文】TextAtlas5M: 一个用于密集文本图像生成的大规模数据集

摘要:且复杂的文本常出现在广告、信息图和标识等场景中,其中文本和视觉元素的融合对于传达复杂信息至关重要。然而,尽管取得了这些进展,生成包含长文本的图像仍然是一项持续存在的挑战,这主要归因于现有数据集的局限性,它们往往侧重于较短且较简单的文本。为了填补这一空白,我们推出了TextAtlas5M,这是一个专为评估文本条件图像生成中的长文本渲染而设计的新型数据集。我们的数据集包含500万张跨多种数据类型的、由长文本生成和收集的图像,能够对大规模生成模型在长文本图像生成方面的表现进行全面评估。此外,我们还精心策划了一个包含3000张人工优化图像的测试集TextAtlasEval,涵盖3个数据领域,建立了文本条件生成领域最广泛的基准之一。评估结果表明,即使是最先进的专有模型(例如结合了GPT-4o和DallE-3的模型),在TextAtlasEval基准测试中也面临着重大挑战,而其开源同类模型的性能差距更大。这些证据表明,TextAtlas5M是训练和评估下一代文本条件图像生成模型的宝贵数据集。Huggingface链接:Paper page,论文链接:2502.07870

一、引言

近年来,文本条件图像生成(Text-conditioned Image Generation)技术取得了显著进展,能够处理越来越长且内容丰富的文本提示。在日常生活中,密集且复杂的文本在广告、信息图、标识等场景中无处不在,这些场景中的文本和视觉元素紧密结合,共同传达复杂信息。然而,尽管技术不断进步,生成包含长文本的图像仍然是一项具有挑战性的任务。这主要归因于现有数据集的局限性,它们往往侧重于较短且较简单的文本,无法满足生成包含长文本图像的需求。

为了解决这一问题,研究者们引入了TextAtlas5M数据集,这是一个专为评估文本条件图像生成中的长文本渲染而设计的新型大规模数据集。TextAtlas5M的推出,旨在填补现有数据集在支持长文本图像生成方面的空白,为开发能够生成高质量、密集文本图像的模型提供数据支持。

二、数据集构建

2.1 数据集概述

TextAtlas5M数据集包含500万张跨多种数据类型的图像,这些图像由长文本生成和收集而来。数据集的构建充分考虑了文本和视觉元素的多样性,以确保能够全面评估大规模生成模型在长文本图像生成方面的表现。

2.2 数据集组成

TextAtlas5M数据集由多个子集组成,包括合成图像子集和真实图像子集。合成图像子集通过不同的方法生成,涵盖了从简单文本图像到复杂场景图像的多个层次。真实图像子集则从多个来源收集,包括PowerPoint演示文稿、学术论文PDF、书籍封面等,以确保数据集的多样性和实用性。

  • 合成图像子集
    • CleanTextSynth:包含200万张纯文本图像,这些图像通过随机采样文本序列并使用OpenCV进行渲染生成。这些图像具有清晰的文本格式和多样的字体、大小和颜色设置,适用于基础实验。
    • TextVisionBlend:通过结合高质量的图像和文本对,生成了54.7万张上下文丰富的交错数据图像。这些图像模拟了博客、维基百科等场景中的文本和图像交错布局。
    • StyledTextSynth:在纯文本图像和交错文本图像场景的基础上,进一步生成了包含复杂嵌入文本场景的图像,如广告牌、包装盒等。这些图像通过LLMs生成场景描述,并使用SD3.5等模型创建无文本图像,然后添加渲染的文本。
  • 真实图像子集
    • PPT2Details:从SlideShare1M数据集中提取了30万张高质量的PowerPoint演示文稿图像,并使用Qwen2-VL模型为每张图像生成详细的文本描述。
    • PPT2Structured:进一步访问了5000张具有详细元素边界框注释的高质量PowerPoint演示文稿图像,为模型训练提供了更丰富的结构化数据。
    • Paper2Text:从Arxiv论文数据集中提取了35.6万张包含详细文本信息的PDF页面图像,这些图像涵盖了学术论文中的各种文本元素。
    • CoverBook:使用了Cover Book数据集,包含了20.7万张书籍封面图像,每张图像都提供了标题、作者、类别和年份等详细信息。
    • LongWordsSubset:通过过滤AnyWords3M和Marion10M数据集中的长文本样本,生成了两个包含长文本的真实图像子集(LongWordsSubset-A和LongWordsSubset-M)。
    • TextScenesHQ:通过结合GPT-4o等模型生成的场景描述和从Common Crawl中检索的图像,生成了3.6万张高质量、长文本的真实图像。这些图像涵盖了天气预报、广告牌、产品标签等多种场景。
2.3 测试集构建

为了评估模型在密集文本图像生成方面的能力,研究者们进一步构建了TextAtlasEval测试集。该测试集从TextAtlas5M数据集中精心挑选了3000张人工优化图像,涵盖了3个数据领域(高级合成层次、真实世界专业领域和网络来源的交错数据)。通过分层随机采样并考虑子集复杂度水平,确保了测试集的多样性和代表性。

三、数据集分析

3.1 一般统计
  • 文本长度:TextAtlas5M数据集中的图像平均包含148.82个文本令牌,远高于现有文本丰富图像数据集的平均文本长度(如Marion10M的16.13个令牌,AnyWords3M的9.92个令牌)。
  • 文档结构:TextAtlas5M中的文档包含中位数为2张图像和33个文本令牌,表明数据集中的图像和文本内容具有丰富性和多样性。
  • 文本质量:通过计算困惑度分数,发现合成数据集中的文本质量显著高于真实图像子集。这可能是由于合成数据集的文本是通过LLMs生成的,而真实图像子集的文本则通过OCR技术提取。
3.2 主题分布分析
  • LDA主题建模:应用LDA模型对数据集中的主题进行建模,并选出了前10个比例最高的主题进行分析。这些主题涵盖了位置、内容、标志、颜色、社区等多个方面,表明数据集具有广泛的内容覆盖。
  • 话题一致性:通过LLMs作为世界模拟器生成的话题,确保了真实和合成图像之间的话题一致性,有效桥接了两者之间的差距。
3.3 定性评估
  • OCR性能:对StyledTextSynth和TextScenesHQ子集中的图像进行了OCR测试,发现当文本与背景对比度不明显或字体颜色重叠时,OCR识别准确率会下降。此外,SD3.5等模型生成的错误字体也会影响OCR性能。
  • 视觉语言相似性评估:使用CLIP模型计算图像和文本之间的匹配分数,发现包含图像标题的子集(如LongWordsSubset-A、LongWordsSubset-M和Cover Book)具有较高的CLIP分数,而交错格式的数据则表现出较低的匹配分数。

四、模型评估

为了验证TextAtlas5M数据集的有效性,研究者们对多种文本到图像生成模型进行了评估。这些模型包括AnyText、PixArt-Σ、TextDiffuser2、Infinity、GPT4o与DallE-3的组合以及SD 3.5 Large等。评估指标包括FID(Fréchet Inception Distance)、CLIP分数、OCR准确率、F1分数和字符错误率(CER)。

  • FID分数:SD 3.5 Large在StyledTextSynth和TextScensHQ子集上表现出较低的FID分数,表明其生成的图像与真实图像在视觉上的相似性较高。然而,在TextVisionBlend子集上,SD 3.5 Large的FID分数较高,可能是由于其无法很好地捕捉交错图像的布局。
  • CLIP分数:在TextVisionBlend子集上,所有模型的CLIP分数都较低,这可能是由于交错格式对CLIP模型来说不够优化。相比之下,在Arxiv Paper子集上,CLIP分数较高,表明CLIP模型具有一定的OCR能力。
  • OCR相关指标:SD 3.5 Large在OCR准确率、F1分数和CER方面表现出色,尤其是在TextVisionBlend子集上。这可能是由于SD 3.5 Large能够生成更完整的文本内容,尽管其在图像布局方面存在不足。

五、贡献与展望

5.1 贡献
  • 引入TextAtlas5M数据集:为文本条件图像生成领域提供了一个大规模、多样化且高质量的长文本渲染数据集。
  • 设计TextAtlasEval测试集:建立了文本条件生成领域最广泛的基准之一,为评估模型在长文本图像生成方面的能力提供了有力支持。
  • 全面评估现有模型:通过对多种文本到图像生成模型的评估,揭示了现有模型在长文本图像生成方面的局限性和挑战。
5.2 展望
  • 数据质量提升:通过多轮数据集引导等方法迭代改进数据质量,进一步提高TextAtlas5M的实用性和可靠性。
  • 数据集扩展:为每个图像生成多个合成标题以进一步扩展数据集语料库,增加数据集的多样性和丰富性。
  • 模型优化:针对TextAtlas5M数据集的特点和挑战,开发能够更好处理长文本和复杂视觉元素的文本到图像生成模型。

六、结论

TextAtlas5M数据集的推出为文本条件图像生成领域的研究提供了新的契机。通过提供大规模、多样化且高质量的长文本渲染数据,TextAtlas5M不仅有助于评估现有模型在长文本图像生成方面的能力,还为开发下一代文本到图像生成模型提供了有力的数据支持。随着技术的不断进步和数据集的不断完善,相信未来在文本条件图像生成领域将取得更加显著的进展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值