斯坦福大学吴佳俊：通过自然监督编码理解视觉世界

智源社区

于 2023-07-01 12:14:54 发布

阅读量273

点赞数 1

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/131496698

版权

斯坦福大学的吴佳俊教授在演讲中探讨了如何利用自然监督编码来理解视觉世界，从二维图像扩展到三维场景。他提出通过学习和结构化编码，可以实现图像分割、补全、外推等任务，且这种方法适用于自然图像，包括旋转对称物体和非旋转对称物体。研究还涉及了如何从单个图像中推断物体的几何形状、纹理和材料，以及未来可能扩展到更复杂的场景和互动。

摘要由CSDN通过智能技术生成

导读

在智源大会的生成模型论坛上，斯坦福大学助理教授吴佳俊带来了精彩的演讲 “通过自然监督编码理解视觉世界”（Understanding the Visual World Through Naturally Supervised Code）。此次演讲从二维图像拓展到三维世界，从人类和自然的先验知识中汲取灵感并应用至生成神经网络。

吴佳俊

斯坦福大学计算机科学系助理教授，隶属于斯坦福人工智能实验室（SAIL）和斯坦福视觉与学习实验室（SVL）。他的研究方向是机器感知、推理和与物理世界的交互，从人类认知中汲取灵感。在加入斯坦福之前，吴佳俊曾在Google Research纽约分部担任访问教职研究员，与Noah Snavely合作。他在MIT获得博士学位，导师为Bill Freeman和Josh Tenenbaum，并在清华大学获得学士学位，师从Zhuowen Tu教授。

我们利用自然界中存在的丰富的结构、符号和程序，是为了在视觉世界中更好地感知，更好地理解。因此，有很多丰富的视觉效果，或者场景，你会意识到这不仅仅是像素，尽管这些模型总是以像素为基础，但它们实际上是比像素更丰富的结构。我们是否有可能利用像素之外的某种结构信息，用于智能场景理解和编辑。

这是一个视频，我们首先可以在给定建筑的情况下进行交互式分割，可以在3D中计算一个消失点。但用户希望通过另一个互动，如果想让它更高，建筑会是什么样子？用户可以通过拖动操作，使建筑更宽并使建筑更高。

但在实践中并没有那么简单，因为操作者必须真正了解多个抽象级别的场景。在最底层，必须理解场景有纹理。这些建筑是三维的，每个立面都有其表面法线，它面向一个特定的方向。因此，如果想让建筑更高，那么建筑的面应该仍然面向同一个方向。另一个重要方面就是重复，地板也在重复，窗户也应该不断重复。

我们受到了早期工作的启发。从一个非常简单的图像开始，首先使用学习和随机搜索的组合来识别场景中的基本元素，在这些情况下，基本元素只有线条和矩形。现在让我们矢量化它，把高维空间变成一个低维空间。可以使用基于学习的方法在低维空间中寻找解释这些结构的编码。一旦有了这个编码，就可以完成一些小任务，比如图像外推。