目录
引言
本章主要介绍数字图像处理的一些基本概念
2.1视觉感知要素
虽然数字图像处理这一领域建立在数学和概率公式表示的基础之上,但人的直觉和分析在选择.种技术而不选择另一种技术时会起核心作用,这种选择通常是基于主观的视觉判断做出的。
2.11人眼的结构
眼睛是由三层薄膜包围着的:角膜与巩膜外壳,脉络膜和视网膜
角膜是一种硬而透明的组织,覆盖着眼睛的前表面。与角膜相连的巩膜是一层包围着眼球其余部分的不透明的膜。
脉络膜位于巩膜的正下方。脉络膜包含有血管网,它是眼睛的重要滋养源。
视网膜由两类光感受器:锥状体和杆状体。锥状体对颜色高度敏感,人们使用锥状体来充分分辨图像细节,锥状体视觉称为白昼视觉或亮视觉。杆状体用来给出视野内的一般的总体图像,对低照明度铭感,称为暗视觉或者微光视觉。
2.12眼睛中图像的形成
人眼中,晶状体和成像区域(视网膜)之间的距离是固定的,实现正确聚焦的焦距是通过改变晶状体的形状来得到的。睫状体中的纤维可实现这一功能,在远离或接近目标物时纤维会分别变扁或加厚晶状体。
2.1.3亮度适应和辨别
人的视觉系统能够适应的光强度级别范围是很宽的–从暗阈值到强闪光约有10^10个量级。
由韦伯比实验得出结论,在低照明水平情况下,视觉由杆状体执行,在高照明水平情况下(表示较好的辨别能力),视觉由锥状体执行。
2.2光和电磁波谱
光是一种特殊的电磁辐射,可以被人眼感知。
人感受一个物体的颜色由物体反射光的性质决定。没有颜色的光称为单色光或无色光。单色光的唯一属性是它的强度,通常用灰度级一次来表示单色光的强度,从黑到白的单色光的度量值范围通常称为灰度级,而单色图像常称为灰度图像。
彩色光的电磁能谱跨越0.43微米~0.79微米的范围。有三个基本量用于描述彩色光源的质量:发光强度、光通量和亮度。
1.发光强度是从光源流出能量的总量,通常用瓦特(W)来度量。
2.用流明数(lm)度量的光通量给出观察者从光源感受到的能量。
3.亮度是光感知的主观描绘子,它实际上不能度量。它具体体现了强度的无色概念,是描述彩色感觉的参数之一。
2.3图像感知和获取
图像感知和生成的主要方式有
使用条带传感器获取图像
使用条带传感器获取图像
使用传感器阵列获取图像
2.3.1图像形成模型
使用如f(x,y)的二维函数来表示图像。在空间坐标(x,y)处,f的值或幅度是一个正的标量,其物理意义由图像源决定。
函数f(x,y)可由两个分量来表征:(1)入射到被观察场景的光源照射总量;(2)场景中物体所反射的光照总量。这两个分量分别称为入射分量和反射分量,且分别表示为i(x,y)和r(x,y)。
f(x, y)= i(x, y)r(x,y)
0<i(x,y)<∞
0<r(x,y)<1
i(x,y)的性质取决于照射源,而r(x,y)的性质则取决于成像物体的特性。
令单色图像在任何坐标
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)处的强度(灰度)表示为
l
=
f
(
x
0
,
y
0
)
l=f(x_0,y_0)
l=f(x0,y0)
L
m
i
n
≤
l
≤
L
m
a
x
L_{min}\le l\le L_{max}
Lmin≤l≤Lmax
理论上,
L
m
i
n
L_{min}
Lmin为正,
L
m
a
x
L_{max}
Lmax为有限值。实际上,
L
m
i
n
=
i
m
i
n
r
m
i
n
L_{min}=i_{min}r_{min}
Lmin=iminrmin和
L
m
a
x
=
i
m
a
x
r
m
a
x
L_{max}=i_{max}r_{max}
Lmax=imaxrmax。
2.4图像取样和量化
为了产生一副数字图像,需要把连续的感知数据转换为数字形式。这种转换包括两种处理:取样和量化。
2.4.1取样和量化的基本概念
对坐标值进行数字化称为取样,对幅值数字化称为量化。
量化所达到的精度依赖于离散级数和取样信号的噪声。
2.4.2数字图像表示
用
f
(
s
,
t
)
f(s,t)
f(s,t)表示一幅具有两个连续变量s和t的连续图像函数。然后通过取样和量化,可以把这个函数转换为数字图像。将函数取样后得到一个二维阵列
f
(
x
,
y
)
f(x,y)
f(x,y),该阵列包含有M行和N列,
(
x
,
y
)
(x,y)
(x,y)是离散坐标。由一幅图像的坐标张成的实平面部分称为空间域,x和y称为空间变量或空间坐标。
有如图下三种基本方法表示
f
(
x
,
y
)
f(x,y)
f(x,y)
函数图:用两个坐标轴决定空间位置,第三个坐标是以两个空间变量x和y为函数的f(灰度)值。
二维显示:它显示了f(x,y)出现在监视器或照片上的情况。这里,每个点的灰度与该点处的f值成正比。该图中仅有三个等间隔的灰度值。如果灰度被归一化到区间[0,1]内,那么图像中每个点的灰度都有0,0.5或1这样的值。监视器或打印机简单地把这三个值分别变换为黑色、灰色或白色。
矩阵显示:将f(x,y)的数值简单地显示为一个阵列(矩阵)。
在某些讨论中,使用传统的矩阵表示法来表示数字图像及其像素更为方便:
数字图像的原点位于左上角,其中正x轴向下延伸,正y轴向右延伸。
以更正式的数学术语表达取样和量化可能会很有用。令Z和R分别表示整数集和实数集。
Z
2
Z^2
Z2是所有有序元素对
(
z
i
,
z
j
)
(z_i,z_j)
(zi,zj)的集合,
z
i
z_i
zi,
z
j
z_j
zj是Z中的整数。
f
f
f将灰度值(R中的一个实数)赋给每个特定坐标对
(
x
,
y
)
( x , y )
(x,y) 的过程。
f
(
x
,
y
)
f ( x , y )
f(x,y)就是一幅数字图像。
数字化过程要求针对M值,N值,离散灰度级数L做出判定。灰度级数一般取2的整数次幂,即
L
=
2
k
L=2^k
L=2k
存储数字图像所需的比特数b为
b
=
M
∗
N
∗
k
b=M*N*k
b=M∗N∗k
当一幅图像有
2
k
2^k
2k个灰度级时,我们称这个图像为一幅“ k 比特图像”。
2.4.3空间和灰度分辨率
- 空间分辨率
直观上看,空间分辨率是图像中可辨别的最小细节的度量。在数量上,空间分辨率可以有很多方法来说明,其中每单位距离线对数和每单位距离点数(像素数)是最通用的度量。每单位距离点数是印刷和出版业中常用的图像分辨率的度量。在美国,这一度量通常使用每英寸点数(dpi)来表示。 - 灰度分辨率
灰度分辨率是指在灰度级中可分辨的最小变化。不像空间分辨率必须以每单位距离为基础才有意义,而灰度分辨率指的则是用于量化灰度的比特数。例如,通常说一幅被量化为256级的图像有8比特的灰度分辨率。
2.4.4图像内插
内插是在诸如放大、收缩、旋转和几何校正等任务中广泛应用的基本工具。从根本上看,内插是用已知数据来估计未知位置的数值的处理。
最近邻内插法:把原图像中最近邻的灰度赋给了每个新位置。
双线性内插法:用4给最近邻去估计给定位置的灰度。令 ( x , y ) ( x , y ) (x,y)为我们想要赋以灰度值的位置的坐标,并令 v ( x , y ) v( x , y ) v(x,y)表示灰度值。 v ( x , y ) = a x + b y + c x y + d v( x , y )=ax+by+cxy+d v(x,y)=ax+by+cxy+d
双三次内插法:包括16个最近邻点,赋予点 ( x , y ) ( x , y ) (x,y)的灰度值是由以下公式得到的: v ( x , y ) = ∑ i = 0 3 ∑ j = 0 3 a i j x i y j v( x , y )=\sum_{i=0}^{3} \sum_{j=0}^{3} a_{ij}x^iy^j v(x,y)=∑i=03∑j=03aijxiyj
2.5像素间的一些基本关系
2.5.1相邻像素
位于坐标
(
x
,
y
)
(x, y)
(x,y) 处的像素 p 有 4 个水平和垂直的相邻像素, 其坐标由下式给出:
(
x
+
1
,
y
)
,
(
x
−
1
,
y
)
,
(
x
,
y
+
1
)
,
(
x
,
y
−
1
)
(x+1, y),(x-1, y),(x, y+1),(x, y-1)
(x+1,y),(x−1,y),(x,y+1),(x,y−1)
这组像素称为 p 的 4 邻域, 用
N
4
(
p
)
N_{4}(p)
N4(p) 表示。
p 的 4 个对角相邻像素的坐标如下:
(
x
+
1
,
y
+
1
)
,
(
x
+
1
,
y
−
1
)
,
(
x
−
1
,
y
+
1
)
,
(
x
−
1
,
y
−
1
)
(x+1, y+1),(x+1, y-1),(x-1, y+1),(x-1, y-1)
(x+1,y+1),(x+1,y−1),(x−1,y+1),(x−1,y−1)
用
N
D
(
p
)
N_{D}(p)
ND(p) 表示。这些点和4个邻点一起称为p的8邻域。用
N
8
(
p
)
N_{8}(p)
N8(p) 表示。
2.5.2邻接性,连通性,区域和边界
令V是用于定义邻接性的灰度值集合。
有三种类型的邻接:4邻接,8邻接,m邻接(混合邻接)。混合邻接是8邻接的改进,消除了8邻接时产生的二义性。
- 连通性:令S是图像中的一个像素子集。如果S的全部像素之间存在一个通路,则可以说两个像素p和q在S中是联通的。对于S中的任何像素p,S中连通到该像素的像素集称为S的连通分量。若S中仅有一个连通分量,则集合S称为连通集。
- 区域:令R是图像中的一个像素子集。如果R是连通集,则称R为一个区域。两个区域,如果它们联合成为一个连通集,则两个区域称为邻接区域。谈到区域时,考虑的是4邻接和8邻接。
- 图像的前景:一副图像中包含有K个不连接的区域,且它们都不接触图像的边界,这些区域包含的点称为前景。
- 图像的背景:图像的前景中的点的补集。
- 边界:一个区域的边界是该区域中至少有一个背景邻点的像素集合。
- 边缘:边缘由具有某些超过预先设定的阈值的导数值的像素形成,是基于在进行灰度级度量时不连续点的局部概念。
2.5.3距离度量
欧几里得距离:
D
e
(
p
,
q
)
=
[
(
x
−
s
)
2
+
(
y
−
t
)
2
]
1
/
2
D_e(p,q)=[(x-s)^2+(y-t)^2]^{1/2}
De(p,q)=[(x−s)2+(y−t)2]1/2
城市街区距离:
D
4
(
p
,
q
)
=
∣
x
−
s
∣
+
∣
y
−
t
∣
D_4(p,q)=|x-s|+|y-t|
D4(p,q)=∣x−s∣+∣y−t∣
棋盘距离:
D
8
(
p
,
q
)
=
m
a
x
(
∣
x
−
s
∣
,
∣
y
−
t
∣
)
D_8(p,q)=max(|x-s|,|y-t|)
D8(p,q)=max(∣x−s∣,∣y−t∣)
2.6数字图像处理中所用数学工具的介绍
2.6.1阵列和矩阵操作
阵列相乘
矩阵相乘
阵列操作贯穿始终,当我们谈到一幅图像的求幂时,意味着每个像素均进行求幂操作;当我们谈到一幅图像除以另一幅图像时,意味着在相应的像素对之间进行相除。
2.6.2线性操作与非线性操作
考虑一般的算子H,该算子对于给定的输入图像
f
(
x
,
y
)
f(x, y)
f(x,y),产生一副输出图像
g
(
x
,
y
)
g(x, y)
g(x,y)
如果
H
[
a
i
f
i
(
x
,
y
)
+
a
j
f
j
(
x
,
y
)
]
=
a
i
H
[
f
i
(
x
,
y
)
]
+
a
j
H
[
f
j
(
x
,
y
)
]
=
a
i
g
i
(
x
,
y
)
+
a
j
g
j
(
x
,
y
)
H[a_if_i(x,y)+a_jf_j(x,y)]=a_iH[f_i(x,y)]+a_jH[f_j(x,y)]=a_ig_i(x,y)+a_jg_j(x,y)
H[aifi(x,y)+ajfj(x,y)]=aiH[fi(x,y)]+ajH[fj(x,y)]=aigi(x,y)+ajgj(x,y)
则称H是一个线性算子,称为一个线性操作,因为两个输入的和与分别对输入进行操作然后再求和得到的结果相同。
通常求最大值的操作是非线性的。
2.6.3算术操作
图像间的算术操作是阵列操作,其意思是算术操作在相应的像素对之间执行。有4种算术操作:
s
(
x
,
y
)
=
f
(
x
,
y
)
+
g
(
x
,
y
)
s(x,y)=f(x,y)+g(x,y)
s(x,y)=f(x,y)+g(x,y)
d
(
x
,
y
)
=
f
(
x
,
y
)
−
g
(
x
,
y
)
d(x,y)=f(x,y)-g(x,y)
d(x,y)=f(x,y)−g(x,y)
p
(
x
,
y
)
=
f
(
x
,
y
)
∗
g
(
x
,
y
)
p(x,y)=f(x,y)*g(x,y)
p(x,y)=f(x,y)∗g(x,y)
v
(
x
,
y
)
=
f
(
x
,
y
)
/
g
(
x
,
y
)
v(x,y)=f(x,y)/g(x,y)
v(x,y)=f(x,y)/g(x,y)
图像算术操作涉及相同大小的图像
- 算术操作的作用:
图像相加(平均):用来降噪
图像相减:增强图像之间的差
图像相乘和相除:校正阴影
2.6.4集合和逻辑操作
基本集合操作:并集,交集,互斥,补集,差
- 图像灰度的集合操作
令灰度级图像的元素用集合A来表示,这些元素是三元组形式 ( x , y , z ) (x,y,z) (x,y,z),其中x和y是空间坐标,z是灰度。将A的补集定义为 A c = [ ( x , y , K − z ) ∣ ( x , y , z ) ∈ A ] A^c=[(x,y,K-z)|(x,y,z)\in A ] Ac=[(x,y,K−z)∣(x,y,z)∈A]K是常数 2 k − 1 2^k-1 2k−1,k是表示z的灰度的比特数。
两个灰度集合A和B的并集可定义为集合 A ∪ B = [ m a x ( a , b ) ∣ a ∈ A , b ∈ B ] A\cup B=[max(a,b)|a\in A,b\in B] A∪B=[max(a,b)∣a∈A,b∈B]
逻辑操作:OR,AND,NOT
模糊集合:理论使用隶属度函数来实现逐步过渡。
2.6.5空间操作
直接在给定图像的像素上执行,分为三大类
-
单像素操作
以灰度为基础改编单个像素的值 -
领域操作
令 S x y S_{xy} Sxy代表图像f中以任意一点(x,y)为中心的一个邻域的坐标集。邻域处理在输出图像 g中的相同坐标处生成一个相应的像素,该像素的值由输入图像中坐标在 S x y S_{xy} Sxy内的像素经指定操作决定。 -
几何空间变换和图像配准
几何变换由两个基本操作组成:1.坐标的空间变换。2.灰度内插,即对空间变换后的像素赋灰度值。
最常用的空间坐标变换之一是放射变换
这个变换可根据矩阵T中元素所选择的值,对一组坐标点做尺度、旋转、平移或偏移。
有两种映射方法:前向映射和反向映射,对于实现来说,反向映射比前向映射更有效。 -
图像配准:图像配准用于配准/对齐两幅或多幅相同场景的图像。它主要分为以下两种情况:
在相同时间内,使用不同成像系统获取的两幅或多幅图像。
在不同时间内,使用相同成像系统获取的两幅或多幅图像。
2.6.6向量和矩阵操作
多光谱图像处理是使用向量和矩阵操作的典型领域,例如RGB图像种每一个像素都有三个分量,这些分量可以组织成列向量。
一旦像素被表示为向量,就可以使用向量矩阵理论工具。
图像可以当作矩阵(或向量)来处理,例如,可以将一副大小为
M
∗
N
M*N
M∗N的图像描述为一个
M
N
∗
1
MN*1
MN∗1维向量。
2.6.7图像变换
在某些情况下,通过变换输入图像来表达图像粗粒任务,在变换域执行指定的任务,之后再用反变换返回到空间域会更好。
2.6.8概率方法
均值和方差对于图像的视觉特效由明显的直接关系。