计算机视觉-CSDN博客

1.1什么是计算机视觉？

首先我们作为人类是如何去感知周围的世界？

我们人类自有一套感知世界的方法，但是我们创造的计算机还没有很好的方法来感知世界，特别是三维立体的感知，无法像人类一样，通过光线和阴影来分辨每个物体的形状，颜色，透明度；可以轻松的说出照片中每个人的名字，甚至可以从他们的面部外观猜出其感情状态。感知心理学家已经花了几十年的时间试图理解视觉系统是如何工作的（是不是他们的方法用错了），尽管他们能够想出光学错觉来梳理其原理的某些部分，但是这个难题依旧扑朔迷离。（或许理论本身是错的？不能支持复杂的视觉感知系统。）

计算机视觉领域的研究人员同时也一直在研究恢复影像中物体的三维形状和外观的数学方法。（没有可以直接三维建模的方法？）目前我们已经有可靠的方法能够从几千幅部分重叠的照片精确地计算出环境的部分3D模型。有特定物体或建筑物正面足够多的一组视图，我们就可以使用立体匹配的方法创建出稠密的3D表面模型图。我们可以在复杂的背景中跟踪运动的人。使用人脸、衣服、头发的检测和识别相结合的方法，我们甚至可以试图找到照片中所有的人并说出他们的名字。尽管有这些进展，但要让计算机试图解释图像的能力与两岁大的孩子有一样的水平，这一梦想仍然是难以实现的。

视觉为什么如此困难？部分原因为它是一个逆问题，在信息不足的情况下我们试图恢复一些未知量来给出完整的答案，因此，我们必须基于物理的和基于概率的模型来消除潜在解的歧义。然而视觉世界的建模就其十分的复杂性远比产生话音的声道建模更困难。（需要我们建立物理视觉模型，需要我们建立概率模型来消除潜在解的歧义。一个物理模型与一个概率模型）

现有的模型通常从物理学或计算机图形学发展而来的。

在计算机视觉领域，我们在试图做反过程，即描述我们从一幅或多幅图像中看到的世界，比如形状、照明和色彩分布。令人惊异的是，人和动物可以毫不费力地完成，而计算机视觉却很容易出错。（为什么会出错呢？由光线组成的世界是否会有我们未知的信息？）

转载于:https://my.oschina.net/rechie/blog/739368