控制图像中的文字!AIGC应用子方向 之 图像场景文本的编辑与生成

Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model

4092173347187d3118886b2bdec2341d.png

  • 扩散模型仍面临准确生成多语言场景字体图像的挑战。为解决这个问题,提出Diff-Text,一种基于训练的自由场景字体生成框架,适用于任何语言。

  • 模型根据任何语言的字体和场景的文本描述生成逼真的图像。该模型利用渲染的素描图像作为先验,从而唤醒了预训练扩散模型的潜在多语言生成能力。基于观察生成图像中交叉注意力图对对象放置的影响,在交叉注意力层中引入了局部注意力约束来解决场景文本的不合理定位问题。此外,引入了对比图像级提示来进一步细化文本区域的位置并实现更准确的场景文本生成。

  • 实验证明,方法在文本识别准确性和前景背景融合的自然度方面优于现有方法。

  • https://github.com/ecnuljzhang/brush-your-text

PSGText: Stroke-Guided Scene Text Editing with PSP Module

  • 场景文本编辑(STE)旨在替换图像中的文本,并保留原始文本的背景和样式。然而,目前的技术在生成编辑后的文本图像时面临着一个明显的挑战,即如何展示高度清晰和易读的编辑后的文本图像。这个挑战主要源于各种文本类型之间的内在多样性和复杂背景的复杂纹理。

  • 为解决这个挑战,本文提出一个三阶段的框架,用于在文本图像之间迁移文本。首先,引入一个文本交换网络,它可以无缝地将原始文本替换为期望的新文本。随后,将背景修复网络纳入到框架中。这个专门网络设计用于巧妙地重建背景图像,有效地处理删除原始文本后留下的空白。这个过程在背景中保持视觉和谐和连贯性。最后,通过融合网络合成来自文本交换网络和背景修复网络的结果,最终创建精心编辑的最终图像。

2b1b3b853579652df562e121e60a5755.png

ViTEraser: Harnessing the Power of Vision Transformers for Scene Text Removal with SegMIM Pretraining

  • 场景文本去除(Scene text removal,STR),目的是用视觉连贯的背景代替自然场景中的文本笔画。  最近的STR方法依赖于迭代改进或显式文本掩码,导致更高的复杂性和对文本定位准确性的敏感性。  此外,大多数现有的STR方法利用卷积神经网络(cnn)进行特征表示,而视觉ViT的潜力仍未得到充分开发。

  • 本文提出一种简单有效的基于vit的文本擦除器,称为ViTEraser。  在一个简洁的编码器-解码器框架下,不同类型的vit可以很容易地集成到ViTEraser中,以增强远程依赖和全局推理。  具体来说,编码器通过ViT块和局部嵌入层将输入图像分层映射到隐藏空间,而解码器通过ViT块和局部分割层将隐藏特征逐步上采样到文本擦除图像。  由于ViTEraser隐式集成了文本定位和图像绘制,提出了一种新的端到端预训练方法,称为SegMIM,该方法将编码器和解码器分别集中在文本框分割和掩码图像建模任务上。

  • 为验证所提出方法的有效性,全面探索了基于ViT的STR编解码器的架构、预训练和可扩展性。实验结果表明,带有SegMIM的ViTEraser在STR上取得了相当大的性能。此外,对篡改场景文本检测的扩展实验证明了ViTEraser在其他任务中的通用性。

  • https://github.com/shannanyinxiang/ViTEraser

4512c7ab1b68d54e87bd65af29cf5973.png

A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed Real-World Data

  • 场景文本图像合成技术,在背景场景图像上自然组合文本实例,对于训练深度神经网络非常有吸引力,因为它们可以提供准确和全面的标注信息。先前的研究已经探索了基于从现实世界观察得出的规则在二维和三维表面上生成合成文本图像。其中一些研究提出从学习中生成场景文本图像;然而,由于缺乏合适的训练数据集,已经探索了无监督框架以从现有的现实世界数据中学习,这可能不会产生稳健的性能。

  • 为了缓解这种困境并促进基于学习的场景文本合成的研究,提出 DecompST,一个使用公共基准的真实世界数据集,具有三种类型的注释:四边形级 BBoxes、笔划级文本掩码和文本擦除图像。使用 DecompST 数据集,提出了一个图像合成引擎,该引擎包括一个文本位置提议网络(TLPNet)和一个文本外观适应网络(TAANet)。TLPNet 首先预测适合文本嵌入的区域。TAANet 然后根据背景的上下文自适应地改变文本实例的几何形状和颜色。实验验证了所提出的为场景文本检测器生成预训练数据的方法的有效性。d069b3535b1ae3c6025a30152daff705.png

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

4004c0fdb8adf9b68f966d5ccf28e967.png 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值