《数字图像处理》读书笔记2：数字图像处理基础

最新推荐文章于 2024-05-28 04:07:38 发布

catkin_ws

最新推荐文章于 2024-05-28 04:07:38 发布

阅读量2.3k

点赞数 2

分类专栏：数字图像处理

本文链接：https://blog.csdn.net/catkin_ws/article/details/94600661

版权

数字图像处理专栏收录该内容

6 篇文章

订阅专栏

1 人类视觉感知

1.1 眼睛构造图

在这里插入图片描述
眼睛还是比较复杂的，至少涉及到下面10个零件：

1. 角膜(cornea)，眼睛前面的硬而透明的组织，保护眼睛的作用。

2. 巩膜(sclera), 角膜之外的表面都由sclera包裹。

3. 脉络膜(choroid), 包含血管网，提供眼睛的养分。

4. 睫状体(ciliary body) 位于脉络膜前部 ,其上的纤维负责悬挂晶状体(lens)。

5. 虹膜(Iris) 也位于脉络膜前部，通过收缩和扩张控制进入眼睛的光量。中间的开口就是瞳孔。

6. 晶状体(lens) 由睫状体纤维悬挂，能够吸收8%的可见光谱，对短波长的光有较高吸收率。蛋白质负责吸收红外光和紫外光。lens可以自动调节厚度。

人眼对焦是靠睫状肌的拉伸来改变晶状体的形状，也就是改变其焦距（或者说屈光度）来实现。
看远处物体，睫状肌放松，晶状体扁平，屈光度最小，焦距最大。
看近处物体，睫状肌收缩，晶状体变凸，屈光度变大，焦距变短，从而在眼轴长度不变的情况下，保证成像在视网膜上。
长时间看近处会造成睫状肌痉挛，也就是晶状体过凸，焦距过小，是为假性近视。
长期看近处，会造成眼轴永久性变长，超出晶状体最大焦距，是为真性近视。
当人变老，晶状体会慢慢变硬，从而丧失调焦的能力。人眼也就从「变焦」成为「定焦」。这时看近处的物体，就需要靠外加凸透镜（老花镜）来屈光。

7. 视网膜(Retina) 布满整个后部的内壁。来自眼睛外部的光在视网膜上成像。视网膜上分布了两种光感受器，锥状体和杆状体。

8. 锥状体有600-700万个，成为中央凹，位于视网膜中间部分。每隔锥状体都有自己的神经末梢，既能感光，也能感色。对颜色高度敏感，构成白昼视觉或亮视觉。

9. 杆状体有7500-15000万个，几个杆状体共用一个神经末梢。没有彩色感觉，用来给出视野内的一般总体图像，对低照明度敏感，换句话说，只能感光，不能感色。感光灵敏度极高，是锥状细胞感光灵敏度的10，000倍，构成暗视觉或微光视觉。

锥状体和杆状体分工，明亮的环境下，锥状体起主导作用，昏暗的环境下，杆状体起主导作用。

10. 盲点，视网膜上没有光感受器的地方就叫盲点。

1.2 基本概念：

1.2.1 亮度适应(Brightness Adaptation)

包括暗适应(Scotopic)和亮适应(Photopic) 两种情况。
从明亮到昏暗环境，叫做暗适应。反之，叫做亮适应。从上面描述的锥状体和杆状体可以知道，当暗适应的时候，眼睛要调节杆状体发挥作用。亮适应调节速度要比暗适应快。

1.2.2 主观亮度(Subjective Brightness)

指的是人的视觉系统感知的亮度。
如图所示：x轴是光的强度的对数，y轴是主观亮度，y=f(x)，而函数f就是对数。
在这里插入图片描述
曲线的含义：

主观亮度和客观亮度的对数成线性关系。为什么用对数(Logarithm)，感觉这里用它做放大的，毕竟[0.001, 0.1]之间距离太小，用对数转换成[-3, -1] 之间的距离比较好观测。这里用的是10为底数的对数。
人眼可以适应的范围很广，从Scotopic threshold到Glare limit。但是这个范围又被分为若干个亮度适应级别(Brightness Adaptation Level), 图上的两段较短的曲线段就是两个亮度级别。当光的强度达到一定层度，人眼就会从较低的亮度适应级别调整到较高的亮度适应级别。当光的强度突然下降到低于Bb所在的强度时，人眼会有短时间的看不见的现象，然后当调整回到较低的亮度适应级别，又能看到东西了。

1.3 亮度辨别能力

反射表面是由折射率不同的两种材料的物理边界如空气和组织的界面组成

反射定义为电磁辐射在入射表面上的返回，分为：镜面反射和漫反射。

漫反射是生物组织的一个共同现象，因为它们没有一个像光学反射面的表面那样的抛光表面。

韦伯比(Weber ratio) 用来表达亮度辨别能力, 公式是：ΔIc/I 。这和一个实验有关系，一块很大的占据观察者全部视野的漫反射体（可能是毛玻璃），背后用强度I的光线照射。然后增加光的强度，增加的部分用变量ΔI表示。当观察者察觉到亮度变化时，取该值的50%，用变量ΔIc表示，并计算ΔIc/I的值，越小说明观察者的亮度辨别能力越好。反之这个观察者眼睛不咋的。

前文已经提到，对数可以用来做放大器。下面的图表X和Y轴都用了对数做放大。
在这里插入图片描述
可以看出，在客观亮度较小时，韦伯比较大，因此人眼此时的亮度辨别能力较差。随着客观亮度的增加，韦伯比变小，人眼亮度辨别能力增强。不过简单的函数并不能完全解释亮度辨别能力。

马赫带(Mach bands) 描述了视觉的上冲和下冲现象。

同时对比(Simultaneous contrast) 解释了不同的背景下的同一物体被观测出来的亮度不一样。

另外还有被深入理解的 “错觉”(Optical illusion)。

2 光和电磁波谱

2.1 基本概念

电磁波 没有质量的粒子流，每个粒子以波的模式并用光速向前运动。

光子每个粒子包含一束能量，每束能量叫做一个光子。因此，一个光子就是一个粒子所带的能量。光子的能量单位是电子伏特。

波长粒子以正弦波的形式运动，两个波峰之间的距离就是波长。λ，读作“拉姆达”。波长的单位是米，微米或者纳米。

频率表示一秒钟经过了多少个正弦波。单位是Hz, 1Hz表示一秒钟经过了一个正弦波。

波长和频率的关系:(c是光速)

$λ = c / v$

光子能量与频率成正比

$E = h v$
h 为普朗克常数，v为频率。

频率越高，能量越大，所以伽玛射线对活体组织危害很大

光是一种可被人眼感知的电磁波。所以这是个很主观的定义，如果铁血战士能看到的是伽玛射线，它可能会称伽玛射线为“光”。对人而言，可见光只占电磁波的一小部分。用棱镜可以将白光分解成连续的色谱：红，橘黄，黄，绿，蓝，紫色。如下图：
在这里插入图片描述

2.2 电磁波谱与可见光谱的关系

在这里插入图片描述

可见光的波段:从紫色的0.43µm 到红色的0.79µm.

2.3 反射光与人的视觉

人看到物体的颜色取决与物体反射的可见光谱。 比如天为什么是蓝色的，简短来说，是因为空气分子散射波长较短的蓝光造成的，而更短波长的紫色虽然被散射，但人眼对紫光不敏感。

无色光，又叫单色光。唯一的属性是光的强度。随着强度的增加，从黑色到灰色，最后到白色。问题是，如果是白色，其实就可以理解为彩色可见光的组合，还能认为是无色光么？所以无色光似乎又是一种人的主观感觉。

**灰度级：**灰度级用来表示光的强度，所以灰度级和强度等价。

单色图像：单色图像也叫做灰度图像。

彩色光源的质量

发光强度从光源流出能量的总量，单位是瓦特(W)
光通量观察者感受到的能量，单位是流明数(lm)，这个取决与观察者是否能感知。比如远红外有发光强度，但是不能被观察者感知，因此光通量为0.
亮度是人的主观感知，不能被度量。

电磁波成像的基本限制
可以设计一些传感器通过检测物体发来的电磁波来成像。但是这些用于成像的电磁波段必须小于物体的尺寸。比如要对水分子成像，传感器就必须能接受到水分子传来的波段为远紫外或软X射线范围的电磁波。因为它们的波长小于水分子的直径:10e-10m

3 图像感知与获取

3.1 图像感知和获取

如今的两种主要成像光源：一是光照源的组合；二是能量的吸收和反射成像。
对于成像的光源非常普遍，有传统的光源和非传统的光源，根据光源的性质可以分为反射和透射光源两种。
根据光源的特性，我们创造了图像传感器，其基本原理足将输入的光，根据输入的电
子能最与感知器材料相结合的特性，转换成一个响应电压，然后将其转化成可测量的能量形
式。
在这里插入图片描述

3.2 单个传感器获取图像

对于单个传感器，域为熟悉的是光电二极管，由硅构成，输出的波形与光成正比，然后
安装在传感器前的过滤器提升了选择能力，可以选择自己想要的光源。其原理是：将负片装
在鼓上，该鼓转动提供一个一维的位移，单传感器安装在引导螺杆上，并提供垂直方向上的
移动，并用一个镜于来控制发射光束到扫描图形上。如图所示:
在这里插入图片描述

3.3 带状传感器获取图像

几何形状是带状排列的传感器形成的一个传感器带。

传感器带在一个方向上提供成像单元，相对于传感器带垂直方向的运动在另一个方向成像。成像传感器带一次给出一幅图像的一行，传感器带的运动完成二维图橡的另一个维度。

以圆环形状安装的传感器用于医学与工程成像，已得到三维物体的横断面（切片）图像。

原理如下：一个旋转的X射线源提供照射，并且相对于射线源的传感器部分手机通过物体的X射线能量。（显然传感器对X射线敏感）；传感器的输出必须由重建算法处理，重建的目的是把感知数据转换成有意义的横截面的图像。
在这里插入图片描述

3.4 传感器阵列获取图像

传感器以二位阵列形式进行排列的独特传感器，如CCD阵列照相机。
如图所示，来自照射源的能量是场景元素的反射（该能量也可以通过场景元素的透射）。
数字图像获取过程的一个例子:（c）成像系统执行第一个功能是收集入射能量，并将它聚焦到一个图像平面上。如果照射的是光，则成像系统的前端是光学透镜，该透镜把观察到的场景投影到透镜的聚焦平面上，如图（d），与焦平面重合的传感器阵列产生与每个传感器接受到的光的总量成正比的输出。数字或模拟电路扫描这些的输出，并把他转换成模拟信号，然后由成像系统的其他部分数字化，输出是一幅数字图像，如图（e）的图解所示。
在这里插入图片描述

3.5 图像成型模型

我们用 $f (x ， y)$ 的二维函数来表示图像。（第一章有讲）
当一幅图像由物理过程产生时，其亮度值正比于物理源（电磁波）所辐射的能量。因此 $f (x ， y)$ 一定是非零有限的，即：

$0 < f (x ， y) < \infty$

$f (x ， y)$ 可以由两个分量表征：入射分量 $i (x, y)$ 和反射分量 $r (x, y)$ ,关系如下：

$f (x ， y) = i (x, y) r (x, y)$

其中

$0 < i (x ， y) < \infty$ , $0 < r (x ， y) < 1$

单色图像在任何坐标处 $(x 0, y 0)$ 的强度（灰度）表示为
在这里插入图片描述
其取值范围为

区间 $[L m i n, L m a x]$ 称为灰度级（强度级）。实际常常令区间为 $[0, L - 1]$ ，其中 $l = 0$ 为黑， $l = L - 1$ 在灰度级中为白色。所有中间值为从黑色到白色之间变化的灰度色调。

4 图像取样和量化

获取图像的目标是从感知的数据中产生数字图像，但是传感器的输出是连续的电压波形，因此需要把连续的感知数据转换为数字形式。这一过程由图像的取样与量化来完成。数字化坐标值称为取样；数字化幅度值称为量化。

4.1 取样

在取样时，若横向的像素数（列数）为M ，纵向的像素数（行数）为N，则图像总像素数为M*N个像素。（M和N必须取正整数）
一般来说，采样间隔越大，所得图像像素数越少，空间分辨率低，质量差，严重时出现马赛克效应；采样间隔越小，所得图像像素数越多，空间分辨率高，图像质量好，但数据量大。

下采样和上采样：
缩小图像（或称为下采样（subsampled）或降采样（downsampled））的主要目的有两个：1、使得图像符合显示区域的大小；2、生成对应图像的缩略图。
放大图像（或称为上采样（upsampling）或图像插值（interpolating））的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而，确实有一些缩放方法能够增加图像的信息，从而使得缩放后的图像质量超过原图质量的。

下采样原理：对于一幅图像I尺寸为MN，对其进行s倍下采样，即得到(M/s)(N/s)尺寸的得分辨率图像，当然s应该是M和N的公约数才行，如果考虑的是矩阵形式的图像，就是把原始图像s*s窗口内的图像变成一个像素，这个像素点的值就是窗口内所有像素的均值：
在这里插入图片描述
上采样原理： 图像放大几乎都是采用内插值方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。简略的可以将插值算法分为传统插值、基于边缘的插值和基于区域的插值 3类

4.2 量化

灰度级量化的取值是2的整数次幂，区间为 $[0, L - 1]$ ,即：

$L=2^k$

高动态范围图像 ：占有灰度级全部有效段的图像。当较多数目的像素具有这样的特性，图像就有较高的对比度。相反，低动态范围图像看起来似乎是冲淡了的灰暗格调。

量化等级越多，所得图像层次越丰富，灰度分辨率高，图像质量好，但数据量大；量化等级越少，图像层次欠丰富，灰度分辨率低，会出现假轮廓现象，图像质量变差，但数据量小。
在这里插入图片描述
很明显，数字图像的质量在很大程度上取决于取样和量化中所用的样本数和灰度级。一般，当限定数字图像的大小时, 为了得到质量较好的图像可采用如下原则：

（1）对缓变的图像，应该细量化，粗采样，以避免假轮廓。
（2）对细节丰富的图像，应细采样，粗量化，以避免模糊（混叠）。

4.3 比特数b

存储数字图像所需要的比特数为b，则

$b = M * N * k$

当一幅图像是 $2^k$ 灰度级时，实际上通常称该图像是k比特图像

4.4 空间和灰度级分辨率

取样值一幅衣服图像空间分辨率的主要参数。空间分辨率是图像中可分辨的最小细节。
类似的，灰度级分辨率是指在灰度级别中可分辨的最小变化。

如图，在数字图像中各种取样数目的典型效果：
在这里插入图片描述

在这里插入图片描述
N和K两个参数的联系：（书中的实验）

对于有大量细节的图像，可能只需要较少的灰度级。
当N固定值时，图像的感觉质量与所用的灰度级数是近似独立的。
图像质量保持相同，但灰度级下降了。原因：k的减小倾向于对比度的增加。

5 像素的一些基本关系

5.1 相邻像素

位于坐标 $(x, y)$ 处的像素p有4个水平和垂直的相邻像素，这组像素成为p的4邻域，用 ${N_4}(p)$ 表示。
p的4个对角相邻像素用 ${N_D}(p)$ 表示。
它们共同构成了p的8邻域，用 ${N_8}(p)$ 表示，即 ${N_4}(p)+{N_D}(p)={N_8}(p)$ 。

5.2 像素的邻接性、连通性

5.2.1 邻接性

定义V为邻接性的灰度值集合。在二值图像中，我们把具有1值得像素归诸于邻接像素，即V={1}。看图
在这里插入图片描述
4邻接 :如果q在集合 ${N_4}(p)$ 中，则具有V中数值的两个像素p和q是4邻接的。
8邻接 :如果q在集合 ${N_8}(p)$ 中，则具有V中数值的两个像素p和q是8邻接的。
m邻接 :如果q在 ${N_4}(p)$ 中，或者在 ${N_D}(p)$ 中，而且集合 ${N_4}(p)$ 与 ${N_4}(q)$ 的交集没有V中的像素，此为1，则具有V中数值的两个像素p和q是m邻接的。（此处，可直接将V理解为1，更容易理解）。