#今日论文推荐# 谷歌推出DreamBooth扩散模型,可做到“以假乱真”,让指定现实物体在图像中以各种方式展现

#今日论文推荐# 谷歌推出DreamBooth扩散模型,可做到“以假乱真”,让指定现实物体在图像中以各种方式展现

在 AI 长期发展中,目前的文本生成图像模型有了显著提升,今年谷歌、OpenAI 等都接连推出了自己的图像生成模型,如 Imagen、Dall·E 2 等。这些模型能够依照给定的文本提示实现高质量和多样化的图像输出。不过,当让一个真实的特定现实物体出现在图像中时,最先进的文本生成图像模型也很难保留其关键视觉特征,即它们缺乏模仿或再现给定参考集中主体外观的能力。
比如,对于下图中的时钟(钟面右侧有黄色数字 3),在对包含时钟外观详细描述的提示文本进行数十次迭代后,Imagen、Dall·E 2 等模型仍无法重建其关键视觉特征。
据了解,造成这一结果的主要原因是此类模型输出域的表达性有限,即便对对象进行最详细文本描述,它们也可能产生具有不同外观的实例。

论文中还提到:“想象一下自己的宠物出现在全球各著名景点或者让喜欢的包在巴黎最高档的陈列室里展出。渲染这样的想象场景需要综合特定主题(对象、动物等)的实例,让它们自然而无缝地融入到场景中,是一项具有挑战性的任务。”值得一提的是,除了能对物体真实再现外,DreamBooth 还能任意调整指定事物(如猫、墨镜)的动作和表情,也可以给它们添加滤镜、各种装饰品和换颜色等,甚至是帮它们“换脸”。在高保真度展示对象细节的同时,还能保证场景与主题之间的逼真交互。

论文题目:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
详细解读:https://www.aminer.cn/research_report/6310b0057cb68b460f11786ficon-default.png?t=M7J4https://www.aminer.cn/research_report/6310b0057cb68b460f11786f
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值