#今日论文推荐# 谷歌DreamBooth扩散模型实现“以假乱真”，让指定实物在图像中以各种方式展现

最新推荐文章于 2024-03-19 20:37:02 发布

wwwsxn

最新推荐文章于 2024-03-19 20:37:02 发布

阅读量794

点赞数

分类专栏： AI 文章标签：深度学习计算机视觉人工智能

原文链接：https://www.aminer.cn/research_report/631203747cb68b460f125532

版权

AI 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

#今日论文推荐# 谷歌DreamBooth扩散模型实现“以假乱真”，让指定实物在图像中以各种方式展现

在 AI 长期发展中，目前的文本生成图像模型有了显著提升，今年谷歌、OpenAI
等都接连推出了自己的图像生成模型，如 Imagen、Dall·E 2 等。这些模型能够依照给定的文本提示实现高质量和多样化的图像输出。不过，当让一个真实的特定现实物体出现在图像中时，最先进的文本生成图像模型也很难保留其关键视觉特征，即它们缺乏模仿或再现给定参考集中主体外观的能力。比如，对于下图中的时钟（钟面右侧有黄色数字 3），在对包含时钟外观详细描述的提示文本进行数十次迭代后，Imagen、Dall·E 2 等模型仍无法重建其关键视觉特征。据了解，造成这一结果的主要原因是此类模型输出域的表达性有限，即便对对象进行最详细文本描述，它们也可能产生具有不同外观的实例。

针对以上问题，谷歌研究人员娜塔尼尔·鲁伊斯（Nataniel Ruiz）等人对 Imagen 模型进行了微调，从而实现了将现实物体在图像中真实还原的功能。可以看到上图最右侧用新模型生成的图片，较好地还原了时钟上数字 3 的位置。近日，相关论文以《微调文本到图像扩散模型，以实现主体驱动生成》（DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation）为题提交在 arXiv 上。本次名为 DreamBooth 的模型是一种新的文本到图像“个性化”（可适应用户特定的图像生成需求）扩散模型。另外，虽然 DreamBooth 是在 Imagen 的基础上做的调整，但研究人员在论文中还提到，他们的方法也适用于其他扩散模型。只需几张（通常 3~5 张）指定物体的照片和相应的类名（如“狗”）作为输入，并添加一个唯一标识符植入不同的文字描述中，DreamBooth 就能让被指定物体“完美”出现在用户想要生成的场景中。

论文题目：ADreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
详细解读：https://www.aminer.cn/research_report/631203747cb68b460f125532https://www.aminer.cn/research_report/631203747cb68b460f125532
AMiner链接：https://www.aminer.cn/?f=cs