导读
在智源大会的生成模型论坛上,斯坦福大学助理教授吴佳俊带来了精彩的演讲 “通过自然监督编码理解视觉世界”(Understanding the Visual World Through Naturally Supervised Code)。此次演讲从二维图像拓展到三维世界,从人类和自然的先验知识中汲取灵感并应用至生成神经网络。
吴佳俊
斯坦福大学计算机科学系助理教授,隶属于斯坦福人工智能实验室(SAIL)和斯坦福视觉与学习实验室(SVL)。他的研究方向是机器感知、推理和与物理世界的交互,从人类认知中汲取灵感。在加入斯坦福之前,吴佳俊曾在Google Research纽约分部担任访问教职研究员,与Noah Snavely合作。他在MIT获得博士学位,导师为Bill Freeman和Josh Tenenbaum,并在清华大学获得学士学位,师从Zhuowen Tu教授。
我们利用自然界中存在的丰富的结构、符号和程序,是为了在视觉世界中更好地感知,更好地理解。因此,有很多丰富的视觉效果,或者场景,你会意识到这不仅仅是像素,尽管这些模型总是以像素为基础,但它们实际上是比像素更丰富的结构。我们是否有可能利用像素之外的某种结构信息,用于智能场景理解和编辑。
这是一个视频,我们首先可以在给定建筑的情况下进行交互式分割,可以在3D中计算一个消失点。但用户希望通过另一个互动,如果想让它更高,建筑会是什么样子?用户可以通过拖动操作,使建筑更宽并使建筑更高。
但在实践中并没有那么简单,因为操作者必须真正了解多个抽象级别的场景。在最底层,必须理解场景有纹理。这些建筑是三维的,每个立面都有其表面法线,它面向一个特定的方向。因此,如果想让建筑更高,那么建筑的面应该仍然面向同一个方向。另一个重要方面就是重复,地板也在重复,窗户也应该不断重复。
我们受到了早期工作的启发。从一个非常简单的图像开始,首先使用学习和随机搜索的组合来识别场景中的基本元素,在这些情况下,基本元素只有线条和矩形。现在让我们矢量化它,把高维空间变成一个低维空间。可以使用基于学习的方法在低维空间中寻找解释这些结构的编码。一旦有了这个编码,就可以完成一些小任务,比如图像外推。