阿里巴巴提出AnyText:首个解决多语言视觉文本生成的工作

本文链接：https://blog.csdn.net/AIGCer/article/details/135517916

基于扩散模型的文本到图像在最近取得了令人瞩目的成就。尽管当前的图像合成技术已经非常先进，能够以高保真度生成图像，但当关注生成图像中的文本区域时，往往可能会暴露问题，因为合成文本通常包含模糊、不可读或不正确的字符，使得视觉文本生成成为该领域最具挑战性的问题之一。为了解决这个问题，本文引入了AnyText，这是一个基于扩散的多语言视觉文本生成和编辑模型，专注于在图像中呈现准确而连贯的文本。AnyText包括一个具有两个主要元素的扩散pipeline：辅助潜在模块和文本embedding模块。前者使用文本字形、位置和mask图像等输入，生成用于文本生成或编辑的潜在特征。后者采用OCR模型将笔画数据编码为embedding，这些embedding与来自分词器的图像字幕embedding融合，生成与背景无缝集成的文本。使用文本控制扩散损失和文本感知损失进行训练，以进一步提高写作准确性。AnyText可以书写多种语言的字符，据我们所知，这是首个解决多语言视觉文本生成的工作。值得一提的是，AnyText可以插入社区中现有的扩散模型，以准确呈现或编辑文本。在进行了广泛的评估实验后，我们的方法在所有其他方法中表现出色。此外，我们贡献了第一个大规模的多语言文本图像数据集AnyWord-3M，包含300万个图像文本对，其中包含多种语言的OCR注释。基于AnyWord-3M数据集，我们提出了AnyText-benchmark，用于评估视觉文本生成的准确性和质量。

开源地址：https://github.com/tyxsspa/AnyText