目录
一、视觉感知要素
1、人眼的结构
眼睛由三层膜包裹,包括角膜与巩膜外壳、脉络膜和视网膜。视网膜上布满了光感受器,包括锥状体和杆状体,分别负责白昼视觉和暗视觉。
2、人眼中图像的形成
在人眼中,晶状体和成像区域(视网膜)之间的距离是固定的,正确的聚焦是通过改变晶状体的形状得到(远离压扁晶状体,接近目标则加厚晶状体)。
3、亮度适应与辨别
人的视觉系统能够适应的光强度级别范围很宽,主观亮度是进入人眼的光强的对数函数。
以下两种现象清楚地表明感知亮度不是简单的强度的函数:
第一种现象:视觉系统往往会在不同强度区域的边界处出现“下冲”或“上冲”现象。
第二种现象:同时对比,感知区域的亮度并不简单地取决于其强度。
人类感知现象的另一些例子就是错觉。
二、光和电磁波谱
我们感受到的可见光的彩色范围只占电磁波的一小部分。在波谱的一端是无线电波,其波长是可见光波长的几十亿倍。波谱的另一端是伽马射线,其波长比可见光小几百万倍。电磁波谱可用波长、频率或能量来描述。更详细的电磁波谱图如下图所示。
光是一种特殊的电磁辐射,它可以被人眼感知。彩色谱分为6个主要区域:紫色、蓝色、绿色、黄色、橘黄色和红色。
人感知的物体颜色由物体反射的光的性质决定。
没有颜色的光称为单色光或无色光。单色光的唯一属性是它的强度或大小。从黑到白的单色光的度量值范围通常称为灰度级,而单色图像常称为灰度图像。
彩色光源的三个属性:频率、辐射、光通量和亮度。
三、图像感知与获取
多数图像都是由“照射”源和形成图像的“场景”元素对光能的反射或吸收而产生的。
照射可能由电磁能源引起,也可以由非传统光源(如超声波)甚至由计算机产生的照射模式产生。
将照射能量转换为数字图像主要由三种传感器配置:
使用单个传感器获取图像
使用条带传感器获取图像:如磁共振成像(MRI)和正电子发射断层成像(PET)等。
使用阵列传感器获取图像: 如单反相机和手机相机。
一个简单的成像模型
我们用形如f(x,y)的二维函数来表示图像。在空间坐标(x,y)处,f的值或幅度是一个正的标量,其物理意义由图像源决定。
入射分量和反射分量分别表示为i(x, y)和r(x, y)。两个函数作为一个乘积合并形成fx, y),即
其中,
四、图像取样和量化
多少传感器的输出都是连续的电压被判刑,这些波形的幅度和空间特性都与正被感测的物理现象相关。要产生一幅数字图像,就需要把感测得到的连续数据转化为数字形式,这包括两个步骤:取样和量化。
1、取样的量化的基本概念
对坐标值进行数字化称为取样,对幅值数字化称为量化。
实践中,取样方法由用于生成该图像的传感器配置决定。
当一幅图像由单个传感单元与机械运动相结合生成时,传感器的输出可用前面讨论的方式量化。使用这种方法对一幅图像取样可以到达的精细程度并没有限制。
当我们使用带状传感器来获取图像时,带中传感器的数量决定了图像中一个方向上的限制。
当传感阵列用于图像获取时,没有运动且阵列中传感器的数量决定了两个方向上的取样限制。
2、数字图像表示
我们把该连续图像取样为一个二维阵列f(x, y),该阵列包含有M行和N列,其中(x,y)是离散坐标。有三种基本方法表示f(x,y)。
图2.18(b)和图2.18(c)中的表示是最有用的。图像显示允许我们快速地观察结果。数值阵列用于处理和算法开发。以公式形式,我们可将一个MxN的数值阵列表示为
在某些讨论中,使用传统的矩阵表示法来表示数字图像及其像素更为方便:
灰度级(Gray levels)、动态范围、对比度:
出于储存和量化硬件的考虑,灰度级数通常取为2的整数次幂,即
灰度跨越的值域非正式的称为动态范围Dynamic range在这里定义为系统中最大可度量灰度与最小可检测灰度之比,其上限取决于饱和度,下限取决于噪声。与这一概念紧密联系的是图像的对比度,即一幅图像中最高和最低灰度级间的灰度差。
存储数字图像所需的比特数为
当一幅图像有 个灰度级时,实际上通常称该图像为一幅“k比特图像”。
3、空间和灰度分辨率
直观上看,空间分辨率是图像中可辨别的最小细节的度量。在数量上,空间分辨率可以有很多方法来说明,其中每单位距离线对数和每单位距离点数(像素数)是最通用的度量。空间分辨率的度量必须针对空间单位来规定才有意义。
灰度分辨率是指在灰度级中可分辨的最小变化,是用于量化灰度的比特数。
4、图像内插
内插广泛用于放大、收缩、旋转和几何校正等处理中,本质上,内插是用已知数据来估计未知位置的数值的处理。
1)、最近邻内插:把原图像中最近邻的灰度赋给了每个新位置,最简单,但会造成某些直边缘严重失真。
2)、双线性内插:用4个最近邻点去估计给定位置的灰度,可给出比最近邻内插好得多的结果,但随之而来的是计算量的增加。注意:双线性内插不是一种线性内插方法
其中,v ( x , y ) 为( x , y ) 处赋予的灰度值。系数可由4个最邻近点写出的未知方程确定。
3)、双三次内插:用16个最近邻点,复杂度较高,在保持细节方面比双线性内插相对要好。双三次内插是商业图像编辑软件Adobe photoshop和Corel Photopaint的标准内插方法。
五、像素间的一些基本关系
1、相邻像素
4邻域:位于( x , y ) (x,y)(x,y)的像素p的4个水平和垂直的相邻像素,其坐标为:
(x+1,y),(x−1,y),(x,y+1),(x,y−1)
用表示。
D邻域:p的四个对角相邻像素,坐标为:
(x+1,y+1),(x+1,y−1),(x−1,y+1),(x−1,y−1)
用表示。
8邻域:p的4邻域和D邻域一起构成p的8邻域,用表示。
2、邻接、连通、区域和边界
1)、邻接性(Adjacency):令V是用于定义邻接性的灰度值集合。
4邻接:若q在p的4邻域中,具有V中数值的两个像素p和q是4邻接的。
8邻接:若q在p的8邻域中,具有V中数值的两个像素p和q是8邻接的。
m邻接:若q在p的4邻域中,或q在p的D邻域中,且p的4邻域和q的4邻域的交集中没有来自V中数值的像素,则具有V中数值的两个像素p和q是m邻接的。
2)、连通性(Connectivity):令S是图像中的一个像素子集。如果S的全部像素之间存在一个通路,则可以说两个像素p和q在S中是连通的。
3)、区域(Region):令R是图像中的一个像素子集。如果R是连通集,则称R为一个区域。在谈到区域时,一般考虑4邻接或8邻接。必须指定邻接类型。
4)、区域R的边界(也称为边缘或轮廓):是这样的点集,这些点与R的补集中的点邻近。或者说,一个区域的边界是该区域中至少有一个背景邻点的像素集。该定义的边界一般指区域的内边界,外边界是指背景边界。
3、距离度量
对于坐标分别为(x,y),(s,t)和(v,w)的像素p,q和z,若
D(p,q)>=0 [D(p,q) = 0 , 当且仅当p = q] 正定性
D(p,q) = D(q,p) 且 对称性
D(p,z) <= D(p,q) + D(q,z) 距离三角不等式
则D是距离函数或度量。
1)、欧几里得(欧式)距离:
距点(x,y)的距离小于等于某个值r的像素构成以p点为圆心,半径为r的圆。
2)、城市街区距离
距点(x,y)的距离小于等于某个值r的像素形成一个中心在(x,y)的菱形。
3)、棋盘距离
距(x,y)的距离小于等于某个值r的像素形成中心在(x,y)的方形。
六、数字图像处理所用的基本数学工具
1、阵列与矩阵操作
包含一幅或多幅图像的阵列操作是逐个像素执行的。事实上,在很多情况下,图像间的操作是用矩阵理论执行的。
阵列相乘:
矩阵相乘:
2、线性操作与非线性操作
图像处理方法的最重要分类之一是它是线性的还是非线性的。考虑一般的算子
H,该算子对于给定的输入图像f(x,y),产生一幅输出图像g(x, y) :
如果
则称H是一个线性算子.其中,,和分别是任意常数和图像(大小相同)。
3、算术操作
s(x, y)= f(x, y)+g(x, y)
d(x, y)= f(x,y)-g(x,y)
p(x, y)= f (x, y)*g(x,y)
v(x, y)= f(x, y)/g(x, y)
这些加减乘除运算都是对应的像素运算,算术运算一般有以下应用:
- 使用图像相加(平均)降低噪声。
- 使用图像相减比较图像。
- 使用图像相乘/相除校正阴影和模板。
4、集合和逻辑操作
1)、集合操作
图像中的逻辑操作主要以像素对像素为基础,在两幅或多幅图像间进行。
灰度值的并集操作和交集操作通常分别定义为相应像素对的最大和最小。而补集操作定义为常数( 2^k-1)与图像中每个像素的灰度间的两两之差。
2)、逻辑操作
or and not
5、空间操作
空间运算是直接对单幅图像的像素执行数学操作,分为三类:(1)单像素运算;(2)领域运算;(3)几何空间运算。
1)、单像素操作
用一个变化函数T改变图像中各个像素的灰度:
上述公式对应单像素操作,z是原图像中像素的灰度,s是处理后图像中对应像素的(映射)的灰度。
2)、领域运算
令 Sxy代表图像 f中以任意一点 (x,y)为中心的一个邻域的做标集,领域处理后,输出图像g中的相同坐标处会生成一个新的像素,该像素的值由输入图像中邻域像素的规定运算和集合Sxy中的坐标确定。假设领域运算对应的是计算大小为m×n中心为(x,y)的矩形领域中像素的平均值,且这个区域中的像素坐标是集合Sxy的元素,那么其对应的领域运算公式如下:
上述公式中,r和c是像素的行和列坐标,属于集合Sxy图像g是通过移动坐标(x,y)使得领域的中心逐个移过图像f中的所有像素,然后在每个新位置都重复这一领域运算得到。
6、向量与矩阵操作
我们知道,彩色图片由彩色的像素组成,而彩色的像素是由一个3维向量来表示的
其中,z1是红色图像中像素的亮度,其他两个元素是相应的绿色图像和蓝色图像中像素的亮度。
7、图像变换
返回到空间域会更好。随着本书学习的深入,您会遇到许多不同的变换。表示为T(u,v)的二维线性变换是一类特别重要的变换,其通用形式可表达为:
给定T(u,v)后,我们可以用T(u,v)的反变换还原f(x, y):
8、概率方法
概率以很多方式用于图像处理工作中。最简单的方式是当我们以随机量处理灰度值时。