David Marr-《视觉计算理论》-思想总结

D. Marr

计算机视觉领域的开山鼻祖。
”David Marr生于1945年1月19日,早年就读于剑桥大学,获得数学硕士、神经生理学博士学位,同时还受过神经解剖学、心理学、生物化学等方面的严格训练。他在英国曾从事新皮层、海马,特别是小脑方面的理论研究。1974年访问美国,并应M.Minsky教授之请,留在麻省理工学院开展知觉和记忆方面的研究工作。他从计算机科学的观点出发,熔数学、心理物理学、神经生理学于一炉,首创人的视觉计算理论,从而使视觉研究的面貌为之一新。Marr于1980年11月17日在波士顿病死,享年35岁。”
人类历史上一颗闪耀的星!


核心思想

如果想要让计算机视觉达到人类视觉的效果,即能够像人一样理解这个世界,其算法设计就需要依赖于人类的视觉原理(是否能够独创一种计算机自己的视觉原理?)。所以计算机视觉应当被看作一个多层次的信息处理过程(因为人类视觉就是一种信息处理的过程)。


重要概念

  • 表象(Representation)与描述(description)
    表象指一个把一类信息表达清楚(在某个方面)的系统,而一个实体在这个系统下得到的表达结果,称为一个描述。表象可以理解为一个变换,或是一种算法,从一个人难以理解的集合(比如数量本身)映射到另一个容易理解的集合(比如10进制下的表达)。
  • 层次
    对一切事物的描述,都应处于一定的层次之下。(比如在宏观和微观下的物理规则)

计算机视觉的三个层次

类似于任何一个信息处理装置,计算机视觉也具备多个(三个)层次。

  • 计算理论
    计算的目的是什么?为什么?计算的逻辑是什么?
  • 表象和算法
    如何实现计算理论?输入输出的表象是什么?如何实现表象间的变换?
  • 硬件实现
    在物理上如何实现这种算法?

这三个层次,历久弥新,非常精彩。
其中,第一个层次最为重要,它关于本质。
这也是《视觉计算理论》这本书的由来。


抛砖引玉 – 从Gibson的生态视觉出发

Gibson是Marr认为在知觉研究方面最接近计算理论(第一个层次)的科学家。他的一个重要贡献在于提出了一个基本的问题:“人如何在不断变化着的感觉的基础上获得恒定的知觉的呢?”不过他所犯的错误也在于这个问题,即他将问题想得过于难了,他认为知觉是神经系统与环境不变量之间的一种谐振,而不是一个信息处理过程。终其一生,他在寻找这种谐振,并将环境不变量作为一种永恒的本质,导致整个问题看起来难以解决甚至无解。
Marr则认为这个问题是有解的,重点是要站在一定的层次上。


Marr对视觉计算理论的定义 – 视觉的目的

视觉是一种处理过程,能从外部世界中得到一个对于观察者来说有用又不受无关信息干扰的描述。而人类视觉的精华则在于:从图像中建立物体的形状和位置的一个描述。
这种描述有以下四个层次:

  • 图像
    以像素为基础,描述光的强度。
  • 要素图
    从原属图像中提取出的关键的信息。
  • 2.5维图
    以观察者为中心的图像,描述物体在三维上的朝向、深度和轮廓。
  • 3维模型表象
    以物体为中心,类似于图形学建立的三维模型,达到真正的三维化。

总结

Marr的整体思想在于模拟人类视觉,从原理上实现计算机视觉,给出了三个层次说,以及他所期望的,计算机视觉表象的四个层次。
计算机视觉近年来的发展,其实都离不开他提出的框架,是从业者应该好好体会的思想。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值