画你所想!北航港大提出DiffSketcher:基于扩散模型的文本驱动矢量化手绘草图合成...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉和扩散模型】交流群

在CVer微信公众号后台回复:DiffSketcher,可以下载本论文pdf、代码,学起来!

题目:DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models

cc7b90df90889d0621969f8b1c71c4e8.png

论文地址:

https://arxiv.org/abs/2306.14685

代码地址:

https://github.com/ximinng/DiffSketcher

论文背景

草图与自然语言,是通过强调主体本质来有效传达思想的有力工具。作为抽象概念的载体,自然语言传达抽象的语义理解,而草图则体现了人类的视觉抽象呈现。草图可以提供比自然语言更多的视觉细节,使概念更加具体。可惜的是,目前从文本到草图的生成工作还没有被过多探索,人们之前更关注从真实图像生成草图的任务(如CLIPasso、InfoDrawing)。尽管它们能够从真实图中生成逼真的草图,但这些方法有一个局限性,即它们不能生成新的内容。

近年来,大模型如雨后春笋般迅速兴起。特别是在文生成图像领域,扩散概率模型展现出强大的潜力。它可以合成高保真度和多样性的图像,同时能够完成图像编辑、风格迁移等任务,并具有出色的可控能力。作者借助扩散模型强大的生成能力,结合基于自然图像生成草图的方法,在文本和手绘草图这两种基本的人类表达形式之间建立了一座桥梁,提出了从文本到草图生成模型:DiffSketcher。

实现思路

DiffSketcher不需要经过任何训练,可以直接基于预训练的扩散模型,通过迭代优化生成草图。首先,在画布(Canvas)上初始化一组贝塞尔曲线,然后,借助可微光栅华器DiffVG,将这组曲线渲染为位图,并通过SDS损失以及JVSP 损失,迭代优化贝塞尔曲线的参数(控制点和颜色),经过快速迭代,便可得到一个符合文本提示的矢量草图。整个流程如下图所示:

2d592ce8b027d2ecfed243315eafc631.png

贝塞尔曲线初始化

贝塞尔曲线初始化过程用到了来自LDM的两种注意力图:Cross attention map与Self-attention map。对于Cross attention map,通过指定激活的token(例如:”Tower“,见下图中黄色区域),拿到token 对应的 Cross attention map;对于Self-attention map,从特定层中抽取出所有的注意力图,计算均值(见下图中绿色区域),得到一张注意力图。最后,将两种attention map按照给定的参数进行融合:

a28e2b413ada2cccce9ca35637a3bf0f.png

得到融合的注意力图后经过Softmax函数后,即可视为一个概率分布图,根据概率加权采样画布上的点作为贝塞尔曲线的控制点。

18d7e29f6406f1afe79df198db9d3fff.png

这样初始化保证了一开始有大量的笔画位于图中语义信息更丰富的区域,可以更快迭代得到结果。

损失函数

迭代优化过程主要用到了两种损失函数:ASDS Loss和 JVSP Loss

作者提出了一个输入增强版本的分数蒸馏采样(ASDS)损失,使用三种数据增强方法对输入增强,将增强后的输入编码到隐空间,再输入到LDM中,计算SDS损失,通过可微渲染器传递梯度优化SVG参数。

c99e3c2e3e0b1c3f9e5c98747dd32825.png

此外,作者还提出了 Joint Visual Semantic and Perceptual (JVSP) 损失,该损失是由LIPIPS 损失和 CLIP Visual Encoder损失组成,将VAE decoder解码得到的彩色图像和渲染器渲染得到的位图进行比较,通过这两种损失计算两种图像之间的距离,优化可微渲染器。

9b299d84d3ad4ac214b7f33aed08ed9c.png

实验结果一览

定性分析

下图是不同场景、不同抽象程度可视化结果。利用红色的词的 token 去获得对应 LDM 中的cross attention map用于计算初始化控制点。

80ae82508e46bf11fd0f89caafe8cc04.png

彩色的矢量图生成结果如下所示:

47a906aee953a04a03ce9cfc6b0f3761.png

风格化矢量图(Oil Painting)结果如下所示:

6bf553e85520002d1879ee874cd795db.png

定量分析

和已有的两种方法:Canny 算法和CLIPasso的定量对比结果如下图所示,更多细节参见论文原文:

80e6db078a32c56178d2d2f5e5fc076a.png

与同期工作VectorFusion的定性比较如下图:

ef5feaa2ea00771463e643275d20e300.png

生成速度方面,DIffsketcher方法大概只需要150s即可生成一张高质量SVG图,同等实验条件(单块A800显卡)下,VectorFusion(作者复现代码 - https://github.com/ximinng/VectorFusion-pytorch)则需要大概1400s。

未来展望

Diffsketcher在复杂场景中生成效果不够好,部分生成矢量图的笔划比较杂乱。为了改善这一问题,后续可以进一步探索Attention map,以便diffsketcher能更加重视重要物体,减少次要因素对最终生成结果的影响;此外,Diffsketcher 的生成质量还有待提高,结果的美观程度距离商用标准仍有一定距离,生成速度方面也有提升的空间。

参考资料

[1] Kevin Frans, Lisa Soros, and Olaf Witkowski. CLIPDraw: Exploring text-to-drawing synthesis through language-image encoders. In Alice H. Oh, Alekh Agarwal, Danielle Belgrave, and Kyunghyun Cho, editors, Advances in Neural Information Processing Systems (NIPS), 2022.

[2] Ben Poole, Ajay Jain, Jonathan T. Barron, and Ben Mildenhall. Dreamfusion: Text-to-3d using 2d diffusion. In The Eleventh International Conference on Learning Representations (ICLR), 2023.

[3] Ajay Jain, Amber Xie, and Pieter Abbeel. Vectorfusion: Text-to-svg by abstracting pixel-based diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.

[4] Yael Vinker, Ehsan Pajouheshgar, Jessica Y Bo, Roman Christian Bachmann, Amit Haim Bermano, Daniel Cohen-Or, Amir Zamir, and Ariel Shamir. Clipasso: Semantically-aware object sketching. ACM Transactions on Graphics (TOG), 41(4):1–11, 2022.

在CVer微信公众号后台回复:DiffSketcher,可以下载本论文pdf、代码,学起来!

点击进入—>【计算机视觉和扩散模型】交流群

ICCV / CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
扩散模型和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看d2961b720c8c1015745fc6e8055bb894.gif
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《Matlab神经网络43个案例分析》是一本介绍Matlab神经网络应用的实用书籍,由王小川等人编写,由北京航空航天大学出版社出版。本书收集了43个实际案例,内容涵盖神经网络的基础知识、分类、回归、聚类等多个方面。每个案例都详细介绍了Matlab代码实现的过程,并给出实现过程中需要注意的问题和注意事项。本书适合研究神经网络的初学者和进一步应用神经网络的工程师、科研人员及教师参考。通过读此书,可以了解神经网络在不同领域中的应用,如语音识别、手写数字识别、图像分割、医学图像分析等,同时也可以学习如何使用Matlab工具箱快速实现神经网络模型。 总的来说,本书内容丰富,代码实现清晰易懂,对于初学者来说是非常有帮助的。同时,此书也值得进一步发掘和研究,以便更好地应用于实践。 ### 回答2: 《MATLAB神经网络43个案例分析》是由王小川等人所著的一本关于MATLAB神经网络应用的案例分析书籍。该书共收录了43个实际案例,旨在通过实际案例的分析,帮助读者深入掌握神经网络在MATLAB中的应用。该书主要包括以下方面的内容: 第一部分为MATLAB神经网络的基础知识,包括了神经网络的概念、分类、应用场景等。 第二部分为神经网络的建模方法和步骤,包括了神经网络的构建、训练、测试、优化等。 第三部分则是针对43个实际案例进行的MATLAB神经网络应用实战分析,覆盖了各个领域,包括了预测、分类、识别、优化等等。 此外,本书还提供了详细的MATLAB源代码,方便读者学习和参考。可以看出,该书内容全面、实用性强,不仅适合MATLAB神经网络初学者的学习,也适合已有一定基础的读者深入学习和应用。 ### 回答3: 《matlab神经网络43个案例分析》这本书由王小川等人编写,于2013年由北京航空航天大学出版社出版。书中共收录了43个不同领域的任务案例,通过这些案例来介绍和应用神经网络的基本原理和方法。 全书分为七章,其中第一章是介绍神经网络的基础理论和模型,并详细讲解了神经元、激活函数、权值、偏置等概念。接着,第二章到第六章分别介绍了神经网络用于回归、分类、聚类、特征提取和时间序列分析等任务的应用案例。每个案例都有详细的数据预处理、网络设计、训练和测试的步骤,方便读者学习和实践。 此外,第七章还深入介绍了神经网络的优化方法、参数选择技巧和模型改进策略,为读者提供了更广阔的思路和方法。 这本书适合对神经网络有一定基础的读者进行深入学习和实践。同时,由于案例涵盖了不同领域的任务,也适合不同学科背景的读者学习和参考。总体上,该书内容丰富、案例具体、讲解详细,值得一读。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值