ECCV`24 | 艺术文本和场景文本分割任务新SOTA 方法！华科&Adobe提出WAS！

本文链接：https://blog.csdn.net/AIGCer/article/details/141519068

文章链接：https://arxiv.org/pdf/2408.00106
git链接：https://github.com/xdxie/WAS_WordArt-Segmentation

亮点直击

提出了艺术文本分割这一新任务，并构建了一个真实数据集用于模型性能基准测试。

设计了训练数据合成策略，生成了包含10万对图像-mask 的合成数据集。

引入了逐层动量查询机制和骨架辅助头，以应对局部笔画的变化和全局结构的复杂性。

在艺术文本分割和场景文本分割任务中取得了最先进(SOTA)的成果，并简化了文本分割的实验范式。

准确的文本分割结果对于文本相关的生成任务（如文本图像生成、文本编辑、文本去除和文本样式迁移）至关重要。最近，一些场景文本分割方法在分割常规文本方面取得了显著进展。然而，这些方法在处理包含艺术字体的场景时表现较差。因此，本文重点研究更具挑战性的艺术文本分割任务，并构建了一个真实的艺术文本分割数据集。该任务的一个挑战在于艺术文本的局部笔画形状具有多样性和复杂性。本文提出了一种带有层次动量查询的解码器，防止模型忽略特殊形状的笔画区域。另一个挑战是全局拓扑结构的复杂性。本文进一步设计了一个骨架辅助头，以引导模型关注全局结构。此外，为了增强文本分割模型的泛化性能，提出了一种基于大规模多模态模型和扩散模型的训练数据合成策略。实验结果表明，本文提出的方法和合成数据集可以显著提高艺术文本分割的性能，并在其他公开数据集上实现了最先进的效果。数据集和代码已开放获取。

数据集

由于现实世界中的艺术字体种类极为多样，本文提出了两个新的数据集：WAS-R（由真实世界的文本图像组成）和WAS-S（由合成文本图像组成）。这些多用途的艺术文本数据集旨在弥合艺术文本分割与现实应用之间的差距，以适应文本视觉研究的快速进展。

WAS-R 图像收集

WAS-R 数据集由 7,100 张图像组成，这些图像来源于各种场景，包括海报、卡片、封面、标志、商品、路标、广告牌、数字设计和手写文本。其中，4,100 张图像作为训练数据集，其余 3,000 张图像作为测试数据集。艺术文本根据图像的捕捉方式可分为两大类。一类是通过相机从各种场景拍摄的艺术文本图像，如招牌。另一类是直接从设计软件中导出的，如海报文件。在数据收集过程中，特意平衡了这两种类型，以创建一个多样化的数据集，用于研究和开发。

WAS-R 图像标注

WAS-R 数据集因其全面的标注而与众不同，超过了现有的数据集。具体而言，WAS-R 为每个单词提供了带有独特分割mask 标签的最小四边形检测框。它还为每个单词mask 提供了文本转录。此外，还标注了诸如阴影、发光、3D 等字效，这些字效在区分艺术文本和传统场景文本中起着关键作用，并对文本分割有显著影响。下图 1 显示了 WAS-R 中收集的图像及其标注示例。