Vision and Art ,The Biology of Seeing 读书笔记

最新推荐文章于 2020-08-06 14:39:06 发布

wolf96

最新推荐文章于 2020-08-06 14:39:06 发布

阅读量2.8k

点赞数 2

文章标签：图形学游戏开发 3d图像信息处理视觉

这本书入手也有一段时间了，术语比较多，读起来比较头疼，不过习惯了到后面就好了。印刷十分精美，各种插图设计也是一流的，看起来还是很享受的。全书的中心思想就是：Vision is information processing, and visual computations are SIMPLE, LOCAL, and OPPONENT。视觉并不是对外部世界的真实还原，在进化的过程中，人脑还形成了很多信息加工的功能，方便快速的获得某种重要信息，比如人脸的识别，深度的感知，颜色从2元到3元以便能识别出有毒的果实之类的。而很多画家其实就是利用了人脑的这些处理信息模式，创造出了经典作品。下面记录一些有意思的地方。

视网膜的构成

视网膜(Retina)的构成如上图所示，列一下从维基百科上拷贝过来的中英文的术语对照，这样后面好理解一些：

视网膜色素上皮 (retinal pigment epithelium)
感光层 (photoreceptor layer,rod,cone) ，包括视杆和视锥细胞
神经节细胞层 (ganglion cell) ，这个层含有神经节细胞的细胞核，视神经从这里开始
内核层 (inner nuclear layer)，又称内颗粒层，由双极细胞(Bipolar Cell)、水平细胞(Horizontal Cell)、无长突细胞、Muller细胞的胞核组成
神经纤维层 (nerve fiber layer)，主要为神经节细胞的轴突

比较有意思的地方：

感光层居然在Retina的最外层，也就是最后才接收到光线的，也就是这个原因，在中心的Fovea区域，为了最大化分辨率，这里的三层神经节细胞都被移开了，露出了一小块区域，让光线经历的中间细胞少一些
中间的几层神经元细胞会在感光层接受光线刺激产生信号后，对信号做整合预处理
光感受体传递神经信号的方式和普通的神经并不相同，光感受体平时一直处于Potentiate的高电位状态，光线刺激出现的时候才降低电位
视锥细胞工作在比较亮的环境下，而且可以分辨颜色。视杆细胞工作在比较暗的环境下，其分辨率比较低，而且不能分辨颜色

Center/Surround原理

在感光细胞送出神经元信号后，神经节细胞层会对信号进行横向整合，遵循的是著名的Center/Surround原理，也就是在中央区域的光线刺激是+信号，而在边缘区域的光线刺激是-信号。这样的组织下，人眼的中心视觉灵敏度很高，并且对运动和变化的物体反映十分灵敏，也就是对光的变化敏感，而不是总体的亮度。这恐怕也是进化过程中必需的。而且重点编码运动和变化的信息，而不是整体的信息，也是一种信息压缩的手段吧。下面这张图可以让我们直观的感受到Center/Surround预处理的效果，当把视觉焦点放在白线交汇处时，会发现周围的交汇处有黑点闪烁，并且离中心视觉焦点越远越黑，当视线移动时，还能明显感觉到闪烁，这是因为神经信号传递的时间延迟。

中心视觉和边缘视觉

人眼的中心视觉分辨率很高，相对的，边缘视觉则要粗很多，但是比较擅长分辨大的轮廓和重要的元素，比如人脸。下面这张对蒙娜丽莎的脸部分析图可以很直观的解释为什么她的微笑那么神秘。

当你聚焦到她的脸部之后，视觉分辨率很高，看到的都是细节，也就是最右边的效果，所以微笑并不明显，但稍微移动视线，由于边缘视觉是看轮廓的，看到的就是左边的两种效果，所以就会突然觉得笑容更明显了。很多画家都会运用人眼的这种视觉原理去创造出一种变化感和运动感。特别是印象派的。

莫奈的这张Rue Motorgueil in Paris,Festival of June 30 , 1878.也是运用这种原理制作的，创造动感并不是单单的Blur掉。而是精确的模拟人眼的Peripheral Vision的Spatially imprecise的特点。

What and Where System

如上图所示，大脑中有两套处理视觉信息的系统，其中where系统是比较古老的构造，特点是分辨率不高，对反差很敏感，色盲，主要依靠亮度信息来判定深度和物体的运动，人物和地面的分离。而what系统是后期进化出来的，分辨率高，对颜色敏感，低反差。用来进行对象识别，人脸识别和颜色感知。

利用这个特点，我们就有了Equiluminant Color，指色调(Hue)和饱和度(Satureate)不同，但是亮度(Luminance)相同的色彩，用这种色彩组成的画面，会导致人的Where系统无法对其中的形状进行定位，所以会有闪烁，漂浮不定的感觉，也是很多画家利用的一个特点，比如印象派的很多画家

莫奈的这幅日出印象就是典型，也包括梵高的很多作品。从图上可以看到莫奈的太阳有比较特别的动感，但是把颜色去掉之后，我们就发现太阳的Luminance和背景基本是一致的。不过我觉得网上找的图效果都不明显，因为Where系统灵敏度很高，只要有亮度差异，基本就识别出来了。而且和屏幕的校准也有关系，这里有个网站可以实时的调整看效果。

今天主要讲色彩的感知原理，为什么战地3可以用Chroma SubSampling来提高渲染效率同时又不对效果有很严重的影响？人眼的感光细胞只有10倍左右的动态范围的情况下，为什么我们能同时看清反差如此之大的各种细节？在颜料能够表现的动态范围很有限的情况下，画家们是如何表现高动态场景的？

色彩的感知原理-三原色(Trichromatic) vs 补色(Color Opponent)

就像光具有波粒二相性一样，对颜色是如何构成的，也有两种理论:

三原色，三色中的任何一色，都不能用另外两种原色混合产生，而其他色可由这三色按一定的比例混合出来，这三个独立的色称之为三原色（或三基色）。视网膜上确实有三种感光细胞，分别对三原色敏感。
补色，这种理论认为人对色彩的感知并不是直接编码三种感光细胞的响应，用三原色合成颜色，而是编码某两种原色的差异，所以叫补色原理，在神经生物学的研究中发现，由于三种感光细胞对光线的反应曲线是有重叠的，所以这种编码差异而不是完整的曲线的方式，信息量更小，通过大脑的处理即可还原所有的信息。

一开始这两种理论被认为是不相容的，并且各自都有实验证据，很有点波粒二相性之争的感觉。后来的科学发展证实，这两种理论适用于人脑处理颜色信息的不同阶段，在第一阶段，感光细胞确实是提供了三原色的响应信号。但是在接下来的Bipolar细胞的处理中，就应用了补色的机制。把三原色信号变成了两元补色(two opponent signals)和亮度(luminance)信号。从处理效率和进化的角度来讲，人类还在低等生物的阶段时，只需要亮度信号就可以进行很多有用的信息处理了（Where系统).这样补色信号和亮度信号的分辨率或者说信息量是不同的，并且由于我们先进化出Where系统，后进化处理对颜色信息进行处理的What系统，所以这样划分也很自然，毕竟对进化来说，推翻重构的成本太高，添加功能式演化是比较自然的。有了这样的认识，很多视觉现象就好解释了，后面很多地方会提到。

比如目前应用非常广的图像压缩算法： Chroma SubSampling。从2011年的SIGGRAPH PPT里面我们可以看到战地3也用了这种算法，通过渲染低分辨率的颜色Buffer来提高效率。所以说，Vision and Art就是做渲染的原点，任何严肃的图形程序员都得好好掌握这些知识。

如何在2D的平面上呈现出3D的效果

视网膜需要从两只眼睛获得的2D图像还原出3D的世界，所以需要不少规则去辅助判定

透视(Perspective)
Shading(主要是靠物体的亮度差异，而不是颜色)
Occlusion(遮挡关系)
Haze(远处的物体会由于雾和大气散射而变得模糊)
Steropsis(立体视觉)
Relative Motion(相对运动)

对画家来说，需要克服已经被大脑处理好的3D图像，而从中去还原出2D图片，然后让其他有着2D视网膜的人觉得这些平面的画很有3D的效果。而克服直觉是需要花很多功夫的，一些画家借助辅助网格，而一些人本身就是由于生理缺陷，缺乏立体视觉。反而成为画家的一大优势。

而为了增加画作的立体感，也需要模拟人眼感知世界的各种规则。下面列举一些我觉得挺有意思的。

透视

人眼因为要从2D图像重建3D的立体世界，所以透视原理也是被硬编码了。就是我们会认为物体必然是近大远小的，比如下面这个著名的Ames’ Window和Ames’ Room。视频演示在这里。如果想自己做一个纸上模型，可以把这个打印出来。

Chiaroscuro（明暗法）

这个术语是来自意大利语，直译就是Light-Dark，是绘画的一种技法，用明暗对比来表现物体的体积感。前面提过，人眼的感光细胞对局部的亮度变化很敏感，并且这部分是古老的高分辨率Where系统所掌管的，所以亮度的对比可以给Where系统很强烈的物体轮廓提示，从而让平面的画作获得立体感。而且由于太阳光总从我们头顶射下，所以“光来自上面”这个规则已经被我们的Where系统硬编码了，所以让物体上部亮，下部暗的时候，我们会觉得这个物体很有立体感，反之则是完全不同的深度感觉，比如下面这些球体：

而一旦我们把球体旋转一个角度，上下的明暗对比没有了：

我们就不会有凹凸的感觉了。

再看一个印象派画家的作品，Monet的Rouen Cathedral：The Portal(in sun)。通过刻意的增加局部的明暗对比，教堂的立体感得到非常大的加强。

再来一张安格尔的：Princess Albert de Broglie，对亮度对比的控制已经牛的不行了。

画家是如何表现HDR（高动态范围）的效果

自然界中，不同的物体之间的亮度差异可能会有成百上千倍，但是我们的眼睛可以毫不费力的同时看到这些东西，而实际上，神经生物学家们发现，感光细胞能够编码的亮度差异也就是10倍左右！（这个我以前还真不知道）人眼会通过局部的对比来自动的调整（上一篇文章提到过的Center/Surround原理）。而对画家们来说，使用的颜料动态范围是非常有限的，显然不可能模拟物理真实的世界如此高的反差，于是画家们也逐渐学会了利用局部的对比来匹配人眼的局部性规则。比如伦勃朗的这幅Philosopher in Meditation。通过使用局部的大反差，用低动态范围的颜料模拟了高动态范围的光照效果。实际上，这中技法在实时渲染里面也是后期效果的标配了。