Alphabet子公司DeepMind近日已发展一人工智能型系统,只要观察2D影像就能建立其3D场景。DeepMind的研究人员说明,人们理解视觉场景时并不只光靠眼睛,还必须仰赖脑袋里的知识进行推理,例如在一个房间里看到一张桌子的三只脚时,人们会推论还有一只同样形状与颜色的脚藏在看不见的地方,就算是无法看到整个房子的场景,也能想象或画出它的布局。
这样的视觉与认知对人类来说似乎毫不费力,但对人工智能(AI)系统而言却是重大挑战,目前最先进的视觉辨识系统是利用由人类建立并批注的大量数据集进行训练,只是建立这些数据集的工程非常耗大,这使得DeepMind开发了生成查询网络(Generative Query Network,GQN)框架,让AI得以藉由它们在场景中移动时所获得的数据进行训练,学习如何感知周遭的环境。换句话说,GQN是个自主学习系统。GQN是由表现网络( representation network)与生成网络(generation network)所组成,前者基于代理人的观察输入了数据,以产生场景的描述,后者则是自未观察到的视点预测场景的样貌。
表现网络必须尽可能精确地描述场景,包括对象的位置、颜色与房间的布局,生成器在训练中学到了环境中的对象、功能、关系与规律性,于是,表现网络是以高度压缩及抽象的方式描述场境,而生成网络则是负责填补详细的信息。
在DeepMind的实验中,他们部署了一个3D的世界,内有随机摆设的各种对象、颜色、形状、纹理及光源等,在利用这些环境进行训练后,由表现网络来形成一个新的场景,显示出生成网络能够从全新的视野来想象从未被观察到的场景,产生一个不管是光线或形状都正确的3D场景。生成网络还能从表现网络所观察到的积木平面图,画出完整的3D积木配置。或者是在视野受阻的迷宫中来回地观察,结合众多有限的资源描绘出正确的3D场景。
研究人员表示,与传统的计算机视觉技术相较,此一方法仍有诸多限制,而且目前只能于合成场景中训练,但随着新数据的出现与硬件能力的提升,GQN框架将能应用至实体场景与更高分辨率的影像,DeepMind也会探索GQN在场景理解上的更多应用,例如查询空间与时间来学习物理与运动的常织,或是应用在虚拟与扩增实境上。 文章转自:惠仲工业科学站 http://hertzhon.com.tw/