扩散模型 | 矢量艺术图形生成

最新推荐文章于 2024-08-09 11:27:54 发布

机器学习与AI生成创作

最新推荐文章于 2024-08-09 11:27:54 发布

阅读量859

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5MTgzNzE0MA==&mid=2247498557&idx=2&sn=ded317ea1483f621ed66f9fa3f166c2e&chksm=fe2a5986c95dd0904e4b934510c4ceec646714f034eba591e7e033c7cffdf11c6e8d3012071f&scene=126&&sessionid=0

版权

点击上方“摸鱼吧算法工程师”卡片，关注星标

获取有趣、好玩的前沿干货！

https://arxiv.org/pdf/2211.11319.pdf

VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models

扩散模型在文本到图像合成中显示出令人印象深刻的结果。使用大量带文本描述的图像数据集，扩散模型学习生成高度多样化的对象和场景的光栅图像。但是，设计人员经常使用图像的矢量表示形式，例如用于数字图标或艺术的矢量图形 (SVG)。矢量图形可以缩放到任意大小，并且紧凑。

本文展示了在图像像素表示上训练的文本条件扩散模型可用于生成 SVG 矢量图形。并且，是在没有使用文字描述的 SVG 的大型数据集的情况下做到的。通过优化可微矢量图形光栅化器，方法 VectorFusion 从预训练的扩散模型中提取抽象语义知识。受最近文本到 3D 工作的启发，还使用分数蒸馏采样学习了与文本描述一致的 SVG。为了加速生成并提高保真度，VectorFusion 还从图像样本进行初始化。

实验显示比以前的工作质量更高，并展示了一系列风格，包括像素艺术和草图。

https://ajayj.com/vectorfusion

-------------END-------------

往期阅读

AVFR-GAN：音视觉的人脸驱动技术

计算机视觉中的传统特征提取方法总结

CVPR 2022｜精准高效估计多人3D姿态，美图&北航联合提出分布感知式单阶段模型

CVPR22 Oral｜MLP进军底层视觉！谷歌提出MAXIM模型刷榜多个图像处理任务，代码已开源

CVPR 2022 | 针对目标检测的重点与全局知识蒸馏(FGD)

Sampling-Argmax：用重参数技巧优化Soft-Argmax

实践教程｜对稀有飞机数据集进行多属性物体检测：使用YOLOv5的实验过程

如果觉得有用，就点个“在看”吧

机器学习与AI生成创作

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。