AnyText多语言文字生成与编辑

baidu_huihui

已于 2024-01-17 10:30:11 修改

阅读量1.3k

点赞数 22

文章标签：人工智能

于 2024-01-16 15:26:57 首次发布

本文链接：https://blog.csdn.net/baidu_41617231/article/details/135626290

版权

本文介绍了AnyText，一种基于扩散模型的文字生成方法，支持中文、英语等多种语言，尤其在处理图像中的文字生成和编辑方面表现出色。模型通过创新的隐空间辅助和文本嵌入模块提升文字书写精度与一致性。AnyText使用了大规模多语言数据集AnyWord-3M进行训练，并在多项指标上超越现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AnyText图文融合

近年来，随着AIGC的爆火，图片生成技术得到飞速发展，当前AI生成的图片已达到真假难辨的高保真度。不过，当合成图片中出现文字内容时，仍能够使AI露出马脚，因为当前主流方法尚无法在图片中生成准确可读的字符。最近半年来已有学者开始研究文本生成的问题，但这些方法大多以英文为主，无法解决中文这种字形繁杂、字符数以万计的文字生成。因此，我们提出了一种新颖的文字生成方法AnyText，通过创新性的算法设计，可以支持中文、英语、日语、韩语等多语言的文字生成，还支持对输入图片中的文字内容进行编辑。本模型所涉及的文字生成技术为电商海报、Logo设计、创意涂鸦、表情包等新型AIGC应用提供了可能性。

代码链接：GitHub - tyxsspa/AnyText

论文链接：https://arxiv.org/abs/2311.03054

在线Demo：创空间(推荐),

模型介绍

AnyText主要基于扩散（Diffusion）模型，包含两个核心模块：隐空间辅助模块（Auxiliary Latent Module）和文本嵌入模块（Text Embedding Module）。其中，隐空间辅助模块对三类辅助信息（字形、文字位置和掩码图像）进行编码并构建隐空间特征图像，用来辅助视觉文字的生成；文本嵌入模块则将描述词中的语义部分与待生成文本的字形部分解耦，使用图像编码模块单独提取字形信息后再与语义信息做融合，既有助于文字的书写精度，也有利于提升文字与背景的一致性。训练阶段，除了使用扩散模型常用的噪声

最低0.47元/天解锁文章