ECCV 2024 | AI字体生成:瞥一眼就能模仿笔迹

‍下文来源  机器之心

来自华南理工大学、新加坡国立大学、昆仑万维以及琶洲实验室的研究者们提出一种新的风格化手写文字生成方法,仅需提供单张参考样本即可临摹用户的书写风格,支持英文,中文和日文三种文字的临摹。

一眼临摹 AI 的研究背景

手写体自动临摹是一项有趣的 AI 生成式任务,用户只需将少量书写样本输入到笔迹模仿 AI 中,就能获得一套符合自己书写风格的电子字体。该字体可以用于社交和办公软件中,帮助用户更好的表达个性和传递情感,兼顾了传统手写的人情味和数字化时代的高效表达。

在去年早些时候,机器之心也报道过一个CVPR’23笔迹模仿的工作,名为Disentangling Writer and Character Styles for Handwriting Generation。彼时的笔迹模仿 AI 还需要提供 15 张样本作为风格参考,用户使用起来觉得略显繁琐。在实际应用中,用户更倾向于只需单张样本作为输入的笔迹模仿 AI,因为其更加高效,便捷以及节约时间。

96d3e730e9a4dd67690fc7195fa2c630.png

在这篇发表在 ECCV 2024 上的新工作中,研究者们设计了一种能够一眼临摹的手写文字生成方法。该方法仅需单张样本作为风格输入,为用户带来更好的使用体验。在具体介绍该工作之前,我们可以思考一个问题:目前大火的文生图方法和风格迁移方法是在海量的数据上进行训练的,拥有强大的泛化能力,能否可以直接实现一眼临摹?答案是否定的。研究者们挑选了 DALL-E3, Stable Diffusion , Artbreeder , IP-Adapter 等工业方法进行测试,实验显示现有工业方法在手写文字的风格临摹 (墨迹颜色,倾斜程度,字母间的连笔和间隔等) 上离目标还有较大距离,暂时还无法做到一眼临摹。

735c3995fc298cef00907bd66bf60f2a.png

为了实现一眼临摹,研究者们提出一个风格化的手写文字生成模型 (stylized handwritten text generation method),该模型能够从单张手写样本中临摹出用户的书写风格,进而合成任意书写内容的手写笔迹。目前论文的代码和数据已经开源,欢迎感兴趣的小伙伴们上手试玩!

af29e342025cde3592e0d3d05b298003.png

  • 论文地址:https://arxiv.org/abs/2409.04004

  • 代码开源:https://github.com/dailenson/One-DM

关键问题

围绕上述目标,研究者们分析了两个关键问题:1. 用户只能提供单张书写样本,如何从单张参考样本中准确学习用户独特的书写风格呢?换句话说,一眼临摹的要求过于苛刻,仅仅使用单张样本能否临摹出令人满意的用户笔迹?2. 实际应用中,用户书写的纸张可能没那么干净,提供的样本中存在多样的噪声背景,如何在临摹风格的过程中避免这些噪声的干扰?接下来让我们看看这篇 ECCV2024 提出的 One-DM(One-Shot Diffusion Mimicker)是如何解决上述问题的吧。

技术方案

研究动机 研究者发现,由于单张样本图像中存在背景干扰,书写风格模式并不清晰,很难直接从原始的样本图像中提取出准确的书写风格。为了解决上述问题,研究者对样本进行高低频分离,发现书写样本的高频成分中具有清晰的文字轮廓,蕴含着显著的书写风格模式,包含文字的倾斜,字母间距和连笔模式等。受启发于上述观察,One-DM 旨在引入个人笔迹的高频成分来增强用户书写风格的提取。

277eec591fd5c8911a89189e69dc757a.png

然而,这听起来简单,实际操作却不容易。这里有两个尚未解决的难题:(1) 尽管高频成分中存在更清晰的风格模式,如何准确引导 One-DM 从高频图像中提取出风格特征而不是其他的特征呢?(2) 由于高频成分中缺乏笔迹颜色,仍然需要从原始样本中提取风格模式作为补充,这导致最终提取出的风格特征依然保留了样本的背景噪声,从而对后续的文字合成过程产生不利影响。为了解决这些难题,One-DM 提出了两个解决策略:(a)拉普拉斯风格增强模块,(b)自适应过滤噪声的门控机制。

方法框架 One-DM 的整体框架如下图所示,包含高频风格编码器、空域风格编码器、内容编码器、风格 - 内容融合模块和扩散生成模块。首先,One-DM 利用高通滤波器从原始风格参考图像中提取高频成分,其次将高频和原始图像并行输入到高频和空域风格编码器中,分别获得高频和空域风格特征。然后,利用门控机制来自适应过滤空域风格特征中的背景噪声。接着将内容编码器提取的内容特征,高频风格特征和过滤后的空域风格特征送入风格 - 内容融合模块中获得合并后的条件输入。最后,利用该条件输入引导扩散模型合成满足期望风格和目标内容的手写文字。

5d12d24c2c5c291fe3504152103a25e1.png

(a) 拉普拉斯风格增强模块 One-DM 提出拉普拉斯风格增强模块来从单张书写样本中高效提取用户的书写风格。首先利用拉普拉斯算子获取原始样本的高频成分。相比其他算子,例如:傅里叶算子,索贝尔算子和小波算子,拉普拉斯算子的优势在于能够提取更加清晰的字符风格模式。随后,在拉普拉斯对比学习损失函数(LapNCE)的引导下,高频风格编码器从高频成分中提取出判别性强的风格模式,用于促进手写文本合成的真实性和多样性。LapNCE 和高频成分是不可分割的整体,与其他直接作用于图像上的对比学习损失函数不同,LapNCE 只有作用在高频成分上才能准确引导风格的提取。

(b) 自适应门控机制 为了过滤空域风格特征中存在的噪声信息,One-DM 提出自适应门控机制。门控机制中存在多个可学习的门控单元04f427f82672f6bd5a3ce34537fe7281.png,其数量与空域风格特征33bfd6d86049b972d8a9503995c681c7.png的长度相同。门控单元W的值会随着36652baf700a71aea57a190740ff3f82.png的改变而自适应变化,每个门控单元a14ea00119dc68b4dc2b7b51060addf4.png决定了对应位置4e9f94e3f99a5720baa5800a4b8219c2.png的通过率,使得2ddaaa8ad583fcf07ac467c08c5c576e.png较大的位置通过率越高。该机制能够从f84c14a26f59a05af26e2f1b0aa1cfd8.png获取有意义的风格信息0ef36e5f00fe57790850a9813d38e759.png,同时抑制多余的背景噪声,其中b7806efddf8d21c6a050f6c257d24c2f.png

cdd1ad65dae14110baeb3cb32b5102da.png

(c) 风格 - 内容的融合摸块 获取了高频和空域风格特征后,如何将风格信息和内容编码器提取出的内容信息注入到扩散模型中,引导后续的文字生成过程呢?One-DM 提出先将内容信息和风格信息融合后再进行注入扩散模型,而不是分开注入。具体来说,所提出的风格 - 内容融合模块包含两个 attention 机制。首先,内容信息E作为 query 向量,合并后的风格信息作为 key & value 向量,在交叉注意力机制中,E动态查询风格信息中与自身最相关的风格特征。然后,将查询出的风格特征和内容信息合并,送入自注意力机制中完成进一步的信息融合。

55cb7263098d5f672cf6a90d7e42004d.png

实验评估

定量评价 One-DM 在多个英文、中文和日文数据集上都取得了最优异的临摹性能。尤其强调的是,仅需一张参考样本的 One-DM 超过了之前依赖十几张参考样本的 SOTA 方法 (HWT 和 VATr)。

402d6287d11982c1cf4aa5220b77a751.png

定性评价 在英文文本生成任务上,相比以前的 SOTA 方法,One-DM 生成的结果可以更好的临摹出参考样本的墨迹、字符间隔和笔画粗细等风格特征。

a03890c7222c02a56d08e36d10dabcc7.png

在其他语言上 One-DM 也表现良好。从下图中可以看出,Diffusion-based (One-DM 和 WordStylist) 的方法在生成中文和日文等字符结构复杂的文本时,显著优于 GAN-based (GANwriting,HWT 和 VATr) 方法。而相比同为 Diffusion-based 的 WordStylist,One-DM 在字符细节上更胜一筹。

b8705c1a7b522bb1b5178bc74e017d1a.png

与工业方法对比,One-DM 也有较大优势。在英文文本合成任务上,One-DM 的文本内容准确度和风格临摹上都显著优于现有的主流工业方法。其中,DALL-E3 跟 Stable Diffusion 表现稍好,可以合成正确的文本内容,但是在风格临摹上效果不佳,并且 Stable Diffusion 容易生成多余的背景。而中文文本合成任务上,One-DM 在字符的墨迹和字符细节上与目标风格更接近。

d056309757a6c17480b9636e31ee7a14.png

fcd0cc9a464de8b5db366c387e85aab9.png

消融实验

核心模块对算法性能的影响 如下表所示,本文提出的拉普拉斯风格增强模块和门控机制具有协同作用,有效提升了对用户笔迹的临摹性能。此外,实验也证明了拉普拉斯算子比其他算子提取的风格模式更加清晰,有助于提升文字合成性能。

ce8b739fda30e9c903d0bb9322be214f.png

e958c9097e901bfc98a7861d6cba03fc.png

拉普拉斯风格增强模块的分析 实验验证了高频成分和拉普拉斯对比学习 (LapNCE) 是不可分割的整体:单独使用会导致 One-DM 性能显著下降,联合使用二者才能最大程度上提升性能。原因在于,没有 LapNCE 的引导,One-DM 很难从高频成分中准确提取风格模式。另一方面,由于原图中的风格模式并不清晰,直接将 LapNCE 应用在原图上也很难提取到理想的风格模式。

一眼临摹的深入分析 为什么仅需单张样本的 One-DM 可以超越需要 10 几张样本的 SOTA 方法呢?本文给出了潜在的分析:首先,One-DM 学习到了有意义的风格特征空间,可以根据训练过程中见过的风格灵活创造新的书写风格而不是机械的记忆训练集中的已有风格,如下图所示。然后,借助拉普拉斯风格增强模块,One-DM 可以从用户提供的参考样本中准确提取出书写风格特征,并将其映射到特征空间中与用户相近的位置,从而产生高质量的风格化手写文本图像。

e085173e9956c0e53813a0fa9d5f3a0b.png

9daf438e0860097f03e1b953b3d9f366.png

One-DM 在中文和日文实验上的深入分析 为什么 One-DM 在中文和日文实验上远超 GAN-based 的方法?本文对此做了进一步探究。作者认为,GAN-based 方法在较低性能可能源于其基础卷积架构难以处理这些字符的复杂几何结构。相比之下,One-DM 作为 Diffusion-based 方法,将中文和日文等复杂字符的生成过程分解为更简单的步骤。如上图所示,在扩散生成过程的早期阶段,One-DM 首先尝试生成一个粗略的中文手写字符。然后,在条件输入的引导下,模型继续细化书写风格(例如字符形状和笔画颜色),直到合成出令人满意的手写体。

总结与展望

One-DM 从用户的实际体验出发,提出了一眼临摹的笔迹临摹 AI。相比之前的类似工作,One-DM 仅需单张样本作为风格输入,使用起来更加高效、便捷和节约时间,并且在性能上也优于以往依赖 10 几张风格样本的 SOTA 工作。希望在未来,人人都可以在互联网上使用自己的专属字体,能够同时享受传统手写体带来的人情味与 AI 时代带来的高效便捷。


关注公众号【机器学习与AI生成创作】,更多精彩等你来读

如何跟进 AIGC+CV 视觉前沿技术?

CVPR 2024 | diffusion扩散模型梳理!100+论文、40+方向!

ICCV 2023 | diffusion扩散模型方向!百篇论文

CVPR 2023 | 30个方向130篇!最全 AIGC 论文一口读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

4cde486e00043b925048e7e24956419f.png 戳我,查看GAN的系列专辑~!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击跟进 AIGC+CV视觉 前沿技术,真香!,加入 AI生成创作与计算机视觉 知识星球!

### ECCV 2024 扩散模型研究与会议信息 #### 关于ECCV 2024的概述 欧洲计算机视觉国际会议(ECCV)是计算机视觉领域的重要学术活动之一。ECCV 2024已公布录用论文名单,共有2395篇论文被接受,录用率为18%[^2]。 #### 扩散模型的研究进展 扩散模型作为一种强大的生成模型,在图像编辑、生成等领域取得了显著成果。在ECCV 2024中,多个团队提出了新的算法或改进现有方法来增强扩散模型的表现力和效率。这些工作不仅限于理论上的创新,还包括实际应用中的优化和技术实现。 #### 参与方式 对于希望参与到这一前沿话题讨论的人士来说,可以通过以下几种途径: - **提交论文**:如果已经完成了相关研究成果,则可以考虑向未来的ECCV或其他顶级会议投稿。 - **关注最新动态**:通过官方渠道获取最新的日程安排以及专题研讨会的信息;也可以加入一些在线社区如GitHub项目页面或者Slack群组等地方与其他研究人员交流心得经验。 - **参加线上/线下活动**:许多重要的发现往往是在非正式场合产生的——比如海报展示环节或是社交聚会期间发生的对话里。因此积极出席各类形式的工作坊、教程讲座等活动有助于建立人脉关系网并获得灵感启发。 ```python # 示例代码用于说明如何查询ECCV官网获取更多信息 import requests from bs4 import BeautifulSoup def get_eccv_info(url='https://eccv2024.org'): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') return str(soup.find('div', {'class': 'main-content'})) print(get_eccv_info()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值