计算机视觉起源
早在1966年,MIT的Marvin Minsky让他的本科生Gerald Jay Sussman在暑假期间将摄像机连接到计算机上,让计算机来描述它所看到的东西(Boden 2006)。这个例子完全描述了计算机视觉所要干的事情,以我的理解就是让计算机去理解看到的图像,即给计算机赋视觉。显然这个问题远远没有当时Marvin Minsky教授所想象的那么简单。
如果从1966年起算,计算机视觉已经发展近60年了,计算机解释图像的能力还不如两岁大的孩子。为什么实现计算机视觉如此困难,部分原因是因为它是一个逆问题(inverse problem),是在信息不足的情况下,我们通过恢复一些未知量来给出完整的解答。
逆问题不同于一般的问题,一般的问题是由因求果,而逆问题就是执果索因,即已知结果去探求原因。在一些学科中,根据测量结果构建经验模型就属于逆问题的求解。比如在地理学中,一般来说,海拔越高,气温越低,因为对流层大气的主要直接热源是地面,离地面越远,得到的地面辐射越少,气温也就越低。每上升100米,气温下降0.6摄氏度,那么“100米”和“0.6摄氏度”这些参数的测定,就是根据实际测量不同高度的不同温度,然后将所有测量结果汇总分析,用线性模型拟合得到的。
计算机视觉的模型往往不会这么简单,视觉世界的建模十分的复杂。有些会涉及到基于概率的模型。比如猫狗识别中,我们需要给计算机看猫的照片,然后告诉它这是猫,再给它看狗的照片,告诉它这是狗。然后选择贝叶斯作为概率模型,求解出参数后得到一个可以简单的贝叶斯分类器。这也是一种通过测定结果去求解模型的方法,随着大数据的到来