概述
透视在艺术中被广泛研究,但现代高质量图像生成方法却缺乏透视精度。新的生成模型引入了几何约束,通过训练过程提高透视精度。这样可以生成更逼真的图像,并提高相关深度估计模型的性能。
最近的图像生成技术使研究人员能够创造性地进行文本到图像的合成。这些模型可以根据各种文字提示生成绘画和照片,但在满足物理限制方面能力有限。手绘艺术强调透视几何,最近的生成模型也通过考虑透视精度来改善逼真度。缺乏物理约束的潜在扩散模型引入了新的损失函数,从而提高了生成图像的物理精确度和逼真度。透视法的准确性对场景的一致性和逼真度有很大影响,与普通模型相比,使用透视损失的拟议模型生成的图像更加逼真。使用这种新损失生成的图像也有利于下游任务的准确性,这表明高级模型的性能得到了提高。
论文地址:https://arxiv.org/abs/2312.00944
相关研究
生成合成图像
由于高维空间和多样性,图像生成是一项具有挑战性的任务。对抗生成网络(GANs)和变异自动编码器(VAEs)是常见的方法;GANs 可以生成高质量图像,但难以训练,而且可能出现模式崩溃。扩散模型最近受到关注,它通过逆转扩散过程生成高质量图像。这种方法与文本引导相结合,改进了逆过程。然而,由于许多扩散模型依赖于先验分布和文本编码器,而先验分布和文本编码器并不能保证物理准确性,因此本研究在生成图像时增加了三维几何约束,以提高图像质量。
研究的具体任务是边缘到图像的合成问题,其中扩散模型以文本提示和边缘图为条件。研究的重点是在无法获取边缘图的情况下生成透视精确的图像,并力求用一般和少量的输入生成高精度的图像。
计算机视觉中的消失点
消失点广泛应用于计算机视觉领域,在相机校准、场景理解、合成场景生成和 SLAM 技术中发挥着重要作用。除此以外,透视技术还被用于计算摄影中,用于编辑焦距和相机位置,以及减少广角图像的失真。这些技术的发展有助于提高图像生成器的逼真度,并使下游任务受益。
单目深度估算
单目深度估计通常需要图像深度配对数据,从早期研究到现在,马尔可夫随机场、卷积神经场和变换器等架构一直被采用。有监督的模型很难收集数据,因此通常使用合成数据集,但存在模拟与真实之间的差距。人们已经尝试了一些方法来解决这一问题,但除了单目深度估计这一常见任务外,同样的方法也可应用于深度完成任务,因为数据格式是相同的。
视角 背景
线性视角
透视在艺术和摄影中尤为重要,是指在三维空间中准确呈现物体的技术。线条透视是其中最常见的一种,它利用了三维空间中平行线汇聚到图像平面上一个点的特性。通常,一幅图画或图像有一到三个消失点,它们决定了图画或图像的风格和视角。地平线是一条水平线,位于观察者眼睛的高度,通常至少有一个消失点位于这条线上。图 2 直观地说明了这些原则。