#今日论文推荐# 谷歌推出DreamBooth扩散模型，可做到“以假乱真”，让指定现实物体在图像中以各种方式展现

最新推荐文章于 2024-05-26 17:45:46 发布

wwwsxn

最新推荐文章于 2024-05-26 17:45:46 发布

阅读量459

点赞数

分类专栏： AI 文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/6310b0057cb68b460f11786f

版权

AI 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

#今日论文推荐# 谷歌推出DreamBooth扩散模型，可做到“以假乱真”，让指定现实物体在图像中以各种方式展现

在 AI 长期发展中，目前的文本生成图像模型有了显著提升，今年谷歌、OpenAI 等都接连推出了自己的图像生成模型，如 Imagen、Dall·E 2 等。这些模型能够依照给定的文本提示实现高质量和多样化的图像输出。不过，当让一个真实的特定现实物体出现在图像中时，最先进的文本生成图像模型也很难保留其关键视觉特征，即它们缺乏模仿或再现给定参考集中主体外观的能力。
比如，对于下图中的时钟（钟面右侧有黄色数字 3），在对包含时钟外观详细描述的提示文本进行数十次迭代后，Imagen、Dall·E 2 等模型仍无法重建其关键视觉特征。
据了解，造成这一结果的主要原因是此类模型输出域的表达性有限，即便对对象进行最详细文本描述，它们也可能产生具有不同外观的实例。

论文中还提到：“想象一下自己的宠物出现在全球各著名景点或者让喜欢的包在巴黎最高档的陈列室里展出。渲染这样的想象场景需要综合特定主题（对象、动物等）的实例，让它们自然而无缝地融入到场景中，是一项具有挑战性的任务。”值得一提的是，除了能对物体真实再现外，DreamBooth 还能任意调整指定事物（如猫、墨镜）的动作和表情，也可以给它们添加滤镜、各种装饰品和换颜色等，甚至是帮它们“换脸”。在高保真度展示对象细节的同时，还能保证场景与主题之间的逼真交互。

论文题目：DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
详细解读：https://www.aminer.cn/research_report/6310b0057cb68b460f11786fhttps://www.aminer.cn/research_report/6310b0057cb68b460f11786f
AMiner链接：https://www.aminer.cn/?f=cs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
#今日论文推荐# 谷歌推出DreamBooth扩散模型，可做到“以假乱真”，让指定现实物体在图像中以各种方式展现

在 AI 长期发展中，目前的文本生成图像模型有了显著提升，今年谷歌、OpenAI 等都接连推出了自己的图像生成模型，如 Imagen、Dall·E 2 等。这些模型能够依照给定的文本提示实现高质量和多样化的图像输出。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。