看了andrew ng老师的lecture里面介绍自己的学生做了这方面的事情,我感觉超好玩,就想自己动手做试试看,毕竟是ML和AI的结合啊。
所以就去搜了篇论文《3D scene reconstruction and understanding from single shot pictures》,他是把整个过程分为两个阶段:分类和可视化。
整个过程用到了很多Hoiem的研究工作(geometric context dataset)。
1,分类
首先对图像进行分割成不同的区域,这些区域有不同的方向标签,然后利用这些图像以及对应的方向标签建立一个ML机,ML机通过训练和测试之后,就能输出基本方向的多边形,然后用了创建粗糙的3D场景。
使用的技术包括:图像分割,ML,
2,可视化
可视化根据之前分类得到的信息,建立的粗糙的3D场景去细化,去除不同区域间的空洞,以及对不同方向的合适的旋转,最后建立很好的3D场景,然后使用AI技术,对场景中增加一个虚拟元素。
使用的技术包括:投射,颜色转移
图像分割:Felzenszwalb算法【12】
哈哈,要一步一步来喽: