Google Research：使用文本到图像模型和合成数据平滑地编辑物体的材料属性

最新推荐文章于 2024-09-10 20:52:55 发布

ronghuaiyang

最新推荐文章于 2024-09-10 20:52:55 发布

阅读量26

点赞数

文章标签：计算机视觉人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg5ODAzMTkyMg==&mid=2247497253&idx=1&sn=2cea8d12cffb938d9df9e7607dfc8d07&chksm=c14767856b29e569e5f3f06eef285f07153f7a72174ef696530d30372c9e319a5a7de47bb6c6&scene=126&sessionid=0

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

作者：Mark Matthews and Yuanzhen Li, Software Engineers, Google Research

编译：ronghuaiyang

导读

我们介绍了一种方法，该方法通过参数化编辑图像中物体的材质属性（如颜色、光泽度或透明度）来增强图像生成模型。

我们介绍了一种方法，该方法通过参数化编辑图像中物体的材质属性（如颜色、光泽度或透明度）来增强图像生成模型。所得的参数化模型利用了生成文本到图像模型对现实世界的理解，通过使用合成数据集进行微调。

许多现有的工具允许我们编辑拍摄的照片，从突出照片中的某个物体到可视化一个空房间可能呈现的颜色。平滑可控（或参数化）编辑是理想的选择，因为它们提供了精确控制物体表面光泽度（例如，咖啡杯）或墙面油漆确切色调的能力。然而，在保持逼真度的同时实现这些类型的编辑通常需要使用现有程序的专业技能。使用户能够在保持逼真度的同时进行这些类型的编辑一直是计算机视觉领域的一个难题。

以往的方法，如本征图像分解，将图像分解为代表“基本”视觉成分的图层，如基色（也称作“反照率”）、光泽度和光照条件。这些分解的图层可以单独编辑并重新组合以生成逼真的图像。挑战在于确定这些视觉成分时存在很大的模糊性：球的一侧看起来暗是因为它的颜色暗淡还是因为有阴影？那里的高光是由于强光还是表面本身就是白色的？人们通常能够区分这些情况，但有时也会被迷惑，这使得对计算机来说这是一个难题。

其他最近的方法利用了擅长生成逼真图像的生成文本到图像（T2I）模型来编辑图像中的物体。然而，这些方法难以分离材料和形状信息。例如，尝试将房子的颜色从蓝色改为黄色可能会同时改变其形状。我们在StyleDrop中也观察到了类似的问题，它可以生成不同的外观，但在不同风格之间无法保持物体形状。能否找到一种方法来编辑物体的材质外观同时保持其几何形状不变？

在论文“Alchemist: Parametric Control of Material Properties with Diffusion Models”，发表于CVPR 2024中，我们提出了一种技术，该技术利用T2I模型的逼真先验知识，使用户能够参数化地控制图像中物体特定材质属性（如粗糙度、金属外观、基色饱和度和透明度）的编辑。我们展示了我们的参数化编辑模型能够改变物体的属性同时保持其几何形状不变，甚至当物体变得透明时还能填充背景。

方法

我们采用了传统计算机图形学和基于物理的渲染技术，这些技术多年来使电影和电视视觉效果的逼真度得以实现，来渲染一个合成数据集，从而使我们能够完全控制材质属性。我们从一组包含100个不同几何形状的家庭用品3D模型开始。创建这些模型的图像需要选择材质、相机角度和光照条件。我们随机选择这些条件，这样我们可以为每个物体创建大量的“基准图像”。对于每个基准图像，我们改变材质的一个单一属性，比如粗糙度或透明度，以产生多个具有不同编辑强度的图像版本，同时保持物体形状、光照和相机角度不变。我们将编辑强度定义为一个改变材质属性的标量值。定义这些值是一个启发性的设计选择，但为了简化起见，我们设置0为“无变化”，-1为“最小变化”，+1为“最大变化”，具体取决于属性。

我们合成数据集中的样本，展示了线性属性变化所导致的外观变化

接下来，我们修改了Stable Diffusion 1.5架构，这是一种用于图像到文本（T2I）生成的潜在扩散模型，使其能够接受编辑强度值，从而实现我们所需的材料参数的精细控制。为了教会模型如何仅改变我们想要的材料属性，我们在只展示所需材料属性变化的合成图像数据集上对其进行微调，并同时输入对应的编辑强度。模型学习了如何根据上下文图像、指令以及定义所需相对属性变化的标量值来编辑材料属性。

为了编辑现实世界图像中物体的材料属性，我们只需将新的现实世界图像提供给训练好的模型，并输入用户想要的编辑强度即可。模型从相对较少的合成数据推广到了现实世界的图像，解锁了现实世界图像的材料编辑功能，同时保持所有其他属性不变。这种在特定任务数据集上进行微调的相对简单的方法，展示了T2I模型在广泛领域输入图像上的泛化能力。

结果

我们对该方法的效果印象深刻。当要求使物体具有金属质感时，我们的模型有效地改变了物体的外观，同时保持了物体的形状和图像光照不变。当要求使一个物体变得透明时，它能够真实地填充物体背后的背景、隐藏的内部结构，以及折射效果（光线通过物体时产生的折射）。

材料属性的平滑编辑。输入展示的是模型训练中从未见过的图像。输出展示的是模型的输出结果。请注意观察输出图像随着编辑强度的变化而平滑地改变材料属性的方式。

此外，在一项用户研究中，我们将我们的方法与基线方法InstructPix2Pix进行了比较，后者是在相同的合成数据集上训练的。内部志愿者被要求审查12组编辑过的图像并选择：(1) 最具摄影逼真的图像，以及 (2) 他们更喜欢的图像。研究结果显示，我们的方法在摄影逼真度方面表现更优（69.6% vs. 30.4%），并且总体上更受青睐（70.2% vs. 29.8%），相比基线方法。