数字图像处理（冈萨雷斯第三版）学习笔记 - Chapter 1 Introduction（1）

本文链接：https://blog.csdn.net/single1314/article/details/107739756

本文介绍了数字图像处理的多个应用场景，包括图像压缩、图像修复、图像分割、计算机视觉等，并探讨了图像获取技术和人类视觉系统的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言： 本人是一名刚刚学习数字图像的小白，目前正在学习数字图像处理这门课程，所使用的教材是冈萨雷斯的经典书籍《数字图像处理》，学习的课程是由Duke大学Guillermo Sapiro教授的课程：《Image and Video Processing: From Mars to Hollywood with a Stop at the Hospital》，个人比较了很多同类的课程，画质清晰而且课程设计也是别出心裁，对于此课程是十分推荐，大家有条件的可以在cousera上找到，此课程还提供字幕组翻译的中文字幕，看起来也非常方便。接下来一段时间，我会每周分享在学习过程中所记下的笔记，希望能与各位大佬们共同进步。如有错误的地方，还请读者们能够指出，我一定会虚心接受和修正。

一、一些图像和视频处理的例子

在这里插入图片描述

上图是NASA 喷气推进实验室 (JPL) 探索火星而得的图像，这些图像在火星车 (Mars Rovers) 的计算机中占了很大一块空间。事实上，把这些图像传回地球耗费了很长时间，因为它们非常非常大。所以NASA和JPL必须在火星车上实现图像压缩 (image compression) 功能来保存信息，同时试图占用更少空间，这样传输得更快。这就是我们需要学习图像压缩算法的原因。

当然，这并不是唯一的关于图像压缩的例子。如果你用数码相机的话，如今大部分的数码相机都使用了图像压缩技术，当你在网络上浏览图片时，你其实也是在使用图像压缩，实际上你在网上看的各种视频，也是经过压缩的。所以说，基本上我们日常生活中一直在用着图像和视频压缩。。
在这里插入图片描述
这有另外一个例子，在图中我们可以看见摄影师，导演肯定不想他出现在图中，但他确实出现了。但是当你去看那部电影的DVD或者其他版本时，这些错误都会被修正。这就是我们需要学习图像修复技术的地方。
在这里插入图片描述
这部电影摄制完成后，我们或许会想给它换一个背景，所以这里是同一个影片，只是背景有所不同。这需要大量的工作，一个基本的想法是将这个人分割出来，作为前景，这是我们想要保留在影片中的。我们需要把它找出来，并从电影中分离出来，然后嵌入到一个新的背景中去。如何从静态图像或是影片中抠出物体来，这就是使用到图像分割技术。
在这里插入图片描述
上图可以看到在一个短片里有两个运动员，我们想让计算机来自动识别视频中人的不同动作。如果你在人物周围看到有不同颜色的方框，比如绿色（跑）和红色（跳），这就表明计算机已经基本识别了。现在是不同的颜色，表明是不同的活动，反之，则说明是相同的活动。这种技术有时候被叫做计算机视觉，而并非图像处理，虽然这两个领域非常非常的接近。
在这里插入图片描述
然后我们来看一些医学图像的例子，这是一个关于神经外科应用的例子。基本的思想是神经外科医生在大脑植入一个电极，然后激发这一电极，这对于很多很多病症极其重要，比如帕金森、震颤症、抑郁症等等一些病症，但是一个基本的难题是一个神经外科医生需要看到大脑内部，需要知道在大脑的哪一部分进行手术。而为了达成这一目的，更确切说是为了知道在哪里植入电极，在哪里进行手术，神经外科医生将通过核磁共振 (MRI) 、计算机断层扫描 (CT) 或者其他方法，拍摄大脑内部的影像，并且尝试绘制出映射图。从而试着得到像我们从谷歌地图或者其他图像上能看到的信息，他们想有一张我们大脑内部的地图，从而使得他们能够知道，在我们大脑内部发生的一切。我们在右上角的红色矩形框可以看到这是其中一个他们想植入电极的区域。
在这里插入图片描述
然后现在你看到的这个花哨漂亮的彩色图像，这是用来描述我们大脑内部结构的多模态合成图像，使得他们合在一起的技术。你能够创造出这些美丽的图像来定位并且告诉你大脑的不同部分实际是怎样连接的，一旦你完成了你就绘制出了地图像我说的那样，你就能实际地绘制出大脑内部图像，并且明白被植入的电极在哪里，然后你就能够定位出电极作用于大脑的部位，这样就真正地看到了我们头颅的内部。而在这背后需要大量的图像处理工作来使得这成为可能。
在这里插入图片描述
类似地我们来看HIV (人类免疫缺陷病毒) 的研究，左边是一个HIV病毒的结构图，我们需要识别这个东西的真实形状。基本思想是我们需要能识别病毒表面紫色和绿色的东西，右图是这个东西的三维效果图，叫做gp120和gp41，这就是所谓的包膜。这是病毒的一个非常重要的组成部分，是病毒用来插入下一个细胞的，所以识别这一形状就非常非常重要。我们需要做的是通过左边的结构图重建出右边的立体图。这就是基础科学对于疫苗发展或者不同病毒研究的惊人的潜在贡献。

二、图像的获取

在这里插入图片描述我们对于人类眼睛可以部分看到的图像相当熟悉，而这些图像，占所有频谱中的非常小的范围（上图中可视光部分(Visible)）。然而，图像是可以在上图中这么大范围的频谱进行记录的。经由相机所记录的部分，相对于全频谱而言，是极小的范围。
在这里插入图片描述

以X光的图像为例，上5副图都属于X光图像。X光图像除了应用在医学领域，也会应用在印刷电路板的检查中。事实上，图像处理运用最广泛而成功的领域就是自动检测。
在这里插入图片描述
此外，也有显微（microscopy）图像的例子（见上图），这些多用于生物图像。不仅如此，这些显微图像也会用于印刷电路板的检测。由此可见，相似的应用会用到不同频谱的图像。所以当我们用不同形式的摄影机对相同对象作取景，就能取得不同类型的信息。
在这里插入图片描述
最后，上图是计算机处理过的人工合成图，即计算机从素描生成图像。通常，用于这些图像的图像处理技术不同于图像获取的技术。

三、人类视觉系统

在这里插入图片描述

上图是简易的眼球横切面，可以观察到角膜（cornea）、晶状体（lens），还有视网膜（retina）。视网膜就是可以看到东西的地方，眼睛看到的图像以投影方式进入眼中。视网膜上布满传感器，影像投影在视网膜上，然后被送入大脑。
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YMpkJKNR-1596302918892)(C:\Users\asus\AppData\Roaming\Typora\typora-user-images\image-20200801233650476.png)]$
视网膜上的传感器有两类，一种是锥形传感器(cones)，另一种是杆状传感器（rods）。上图的纵坐标为传感器的密度，横坐标是以小窝为中心，传感器此时的位置与小窝的差角。在上图中可以看到锥形传感器在视网膜上的小窝(fovea)处的密度达到一个高峰。锥细胞擅长于观察细节，锥形传感器在亮光下运作最好。通常，人们不自觉地在注视物体时，移动自己的眼睛，主要是要尽可能地把影像投影到视网膜上的小窝区，因为这里锥形传感器最多。随着远离小窝区，锥形传感器的密度也跟着下降。

另一种传感器是杆状传感器，杆细胞在此图是以此线段作表示杆细胞在视网膜上的分布不完全一致用此图作参考，有些部位只有少许甚至没有杆细胞分布，全都是锥细胞。杆细胞不擅长于观察细节，而是擅长景象中轮廓讯息的掌握，且在微弱光线下的表现良好。所以，两者互补。锥细胞在光亮中看得清，又集中分布于视小窝区，而杆细胞，杆细胞则可在弱光运作，对轮廓掌握佳，分布于视网膜上。

类型	锥形传感器	杆形传感器
适应光强性能	亮光最优	弱光最优
视网膜上分布情况	集中于小窝区	视网膜上不均匀分布
观察性能	对细节掌握佳	对轮廓掌握佳

另外值得注意的是，视网膜上有一个区域并没有传感器，此处称为盲点。普遍认为，我们没有注意到视觉系统里有个这样的区域，在那段区域中并没有接收到任何信息，而且我们对此完全没有感觉。
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yC9sJkLO-1596302918893)(C:\Users\asus\AppData\Roaming\Typora\typora-user-images\image-20200802004653329.png)]$
也就是说，人类视觉范围非常的大，当杆细胞和锥细胞协同工作，我们就能注意到这图形。实际上，我们可感应的光强范围非常之广。所以上图横坐标是以对数为单位。其中比较低光强的由杆细胞感应，当我们身处高亮度环境时，一般认为是锥状细胞在感应。

虽然我们可感受到的亮度范围非常大，但是不能同时做到。比如在非常暗的房间里，同时有强光刺眼，则眼睛无法视物。在很暗的房间里，我们看得见，在明亮的房间里，也看得见。就是不能在同一时间看清而已，我们需要进行调节。所以在特定的光强度下，我们也得调节后才能适应，最终看到。

如上图，在某个背景光下，我们在中间绘制一个圆，慢慢调整圆圈部分的光亮，直到观察者说，他看到那里的圆圈了。此时，我们可以把圆调得更亮一些也可以把它调更暗一些。再测量出我们能感知的变化范围大小。我们感知的变化的范围其实有点取决于背景光，这是韦伯法则。就像图中所示，如果我们在低光条件下，那个变化量▲I就相对高一点。如果我们处在高亮环境中，就不要多大的变化。

通俗地说，如果屋子很黑，那光亮的细微的变化是不会被感知到的，我们需要更大的变化。所以，两个物体如果非常黑，又相似，我们就很难区分它们。反之，背景光非常明亮时，我们不需要光强有很大的变化，就能分辨物体。所以如果遇到比较暗的相似图片，我们应该利用图像处理技术增大之间的区别，以便我们进行分辨。
在这里插入图片描述

另一个可以解释这一现象的例子叫马赫带效应。如上图，这是块黑色区域，后面的一块比一块亮。其中，每张图的亮度都是恒定的。但是，我们的感知到的却不像这样，我们观察在亮度变换的边缘时，会误认为黑者更黑，亮者更亮。这从另一方面，这种现象同时也反映了人类是的视觉系统会产生错觉。

以上部分总结一下就是，我们能够对在一个很大的亮度范围内的图像进行观察、理解和解释，但我们不能同时感应亮度相差过大的情况，我们需要适应，如果适应了黑暗，视觉会不够灵敏。尤其是相对于适应光明，亮度很高的那情况。我们视觉系统另一个有趣的方面是我们的视觉感知取决于我们的周边。一个就是已知的韦伯法则，对中间圆圈的感知就取决于它周围的亮度和光照，另一个例子叫马赫带效应。