数字图像基础
➢视觉感知要素
1.人眼结构:
晶状体:改变屈光度, 使看远或看近时眼球聚光的焦点都能准确地落在视网膜上;
视网膜Retina: 光电转化器,感光成像;
锥状体:对颜色敏感,负责亮视觉
杆状体:对低照明度敏感,负责暗视觉
2.人眼中图像的形成:
相机聚焦: 焦距固定,改变镜头和成像平面之间的距离;
人眼聚焦: 晶状体中心与成像区域(视网膜) 的距离固定, 改变焦距(14~17mm) , 即改变晶状体形状;
3.亮度适应和识别:
主观亮度(即人类视觉系统感知的亮度):进入人眼的光强的对数函数;
亮度适应: 视觉系统不能同时在这样一个光强变化大的范围内工作,相反,是通过改变其整体灵敏度来适应光强的变化;
亮度适应水平: 视觉系统的当前灵敏度水平, 如𝐵𝑎 ;
韦伯比:某一背景光照强度为I,当增加△I足够大时,人眼可以识别,此时的△I/I称为韦伯比;(∆𝐼𝑐是背景光强为𝐼时50%的时间可辨别的照射增量);
韦伯比越大,亮度判别能力越差,反之则越好;
在低照明级别,亮度辨别能力较差(韦伯比较大),且随着背景照明级别的增加而明显改善(韦伯比降低);
➢光和电磁波谱
1.电磁波:
可视为以波长传播的正弦波, 也可以视为没有质量但具有一定能量的粒子流, 每个无质量但具有一定能量的粒子为光子;
λ =𝑐 𝑣;𝐸 = ℎ𝑣;ℎ = 6.626 × 10−34𝐽 ∙ 𝑠
波长越小,频率越高,光子携带的能量越高
2. 光能量的度量
白光:由不同频率的单色光所混合而成的复色光
发光强度:光源流出的能量总量(瓦特W)
光通量:观察者从光源感受到的能量(流明数lm)
亮度:光感知的主观描述子,不可度量
➢图像的感知和获取
1. 将照射能量转换为数字图像的3种主要传感器配置:
•使用单个传感器获取图像
• 使用条带传感器获取图像
• 使用阵列传感器获取图像
2. 一个简单的成像模型:
以二维函数f(x,y)表示图像,在空间坐标(x,y)处f的值是一个非负的值,其大小与电磁波(物理源)所辐射的能量成正比;
函数f(x,y)由两个分量表征:𝑓 𝑥, 𝑦 = 𝑖 (𝑥, 𝑦) ∙ 𝑟(𝑥, 𝑦)
- 入射到被观察场景的光照总量,即入射分量𝑖(𝑥, 𝑦);0 < 𝑖 (𝑥, 𝑦 )< ∞;
- 场景中物体反射的光照总量(比值),即反射分量𝑟(𝑥, 𝑦);(反射率)0 < 𝑟 (𝑥, 𝑦) < 1;
令单色图像在任何坐标 𝑥0, 𝑦0 处灰度值为𝑙 ,
𝑙 = 𝑓 (𝑥0, 𝑦0) 𝐿𝑚𝑖𝑛 ≤ 𝑙 ≤ 𝐿𝑚𝑎𝑥
区间[𝐿𝑚𝑖𝑛 , 𝐿𝑚𝑎𝑥]称为灰度级, 通常令该区间为[0 , L−1] ,L为2的n次幂
➢图像的取样和量化
1.模数转换:
空间位置的离散化
电磁辐射能量的离散化
取样/采样:对坐标值进行数字化(模拟信号是连续的,这就意味着一段时间T的模拟波由无数个点组成,如果要用计算机表示就要把这无数个点存储下来,这显然是不可能的而且是没有必要的。那么我们可以用隔一段记录一个点的方式存储这段模拟波,存储下来的点其实就是对这段模拟波的采样)
量化:对幅度值进行数字化(把刚才取样后的数据近似定量到一个2^n个等分(只讨论均匀量化)数据)
2.精度
(1)取样精度:
• 单个传感器: 机械运动可以非常精确,限制由光学元件等因素决定;
• 条带传感器: 条带中的传感器数量,机械运动;
• 传感器阵列: 两个方向的传感器数量
(2)量化精度:
通常取决于ADC芯片能力
数字图像的质量很大程度上取决于取样和量化中所用的样本数和离散灰度级
3. 把一幅连续图像取样为数字图像𝑓(𝑥, 𝑦)
该图像包含𝑀行和𝑁列,其中 𝑥, 𝑦 是离散坐标
• 原点是 (0,0)
- 范围在(𝑀 − 1, 𝑁 – 1)的𝑀 × 𝑁数字图像的中心坐标是: (𝑓𝑙𝑜𝑜𝑟(𝑀/2), 𝑓𝑙𝑜𝑜𝑟(𝑁/2))
(即对𝑀/2和𝑁/2向下取整,并非四舍五入)
- 图像数字化的要求: 𝑀和𝑁 必须为正整数,其他无限制;
- 出于存储和量化硬件的考虑,灰度等级通常为2的整数次幂;𝐿 = 2𝑘 其中, 𝑘是整数
- 灰度是[0 , L − 1]之间的整数;灰度跨越的值域称为动态范围;
- 图像系统的动态范围:系统中最大可度量灰度与最小·可检测灰度之比;(上限取决于饱和度, 下限取决于噪声;)
- 对比度: 一幅图像中最高和最低灰度级之间的灰度差;
4.数字图像表示
- 存储数字图像所需的比特(bit) 数为 𝑏 = 𝑀 × 𝑁 × 𝑘
(1字节=8比特,即1 B𝑦𝑡𝑒 = 8 𝑏𝑖𝑡;1 兆 字 节 =106 字 节 ,即 1 𝑀B = 1024 ∗1024 𝐵𝑦𝑡𝑒s)
(1)分辨率
空间分辨率:图像中可辨别的最小细节的度量(用线对或者每英寸点数dpi表示)
图片分辨率:定义为单位距离内可分辨的最大线对数
灰度分辨率:灰度级中可分辨的最小变化,通常指量化灰度时所用的比特数,无须针对空间单位;(最常用一般为8bit,其次是16bit、32bit,10bit、12bit少见)
- 受噪声和饱和度值的影响,而且受人类分析和解释场景内容的能力影响;
- 随着细节的增多,曲线趋向于竖直;
- 如人群图像,其感知的图像质量与所用灰度级基本无关,细节丰富的图像可能只需要较少的灰度级;
(2)图像插值
图像放大、缩小、旋转和几何校正中均用到图像插值
①最近邻插值
也叫零阶插值法,即把与其位置最近邻像素的灰度值赋值给每个新的位置;
②双线性插值
又叫一阶插值法,对最近邻插值的一种改进,先后在x和y方向进行一阶线性插值;
• 进行x方向的线性插值, 得到R1和R2两点的灰度值;
• 进行y方向的线性插值, 得到P点的灰度值;
将第一步结果带入第二步
由,可得
𝑃 (𝑥, 𝑦)= 𝑄(𝑥′, 𝑦′);𝑃 (𝑥, 𝑦)= 𝑎𝑥 + 𝑏𝑦 + 𝑐𝑥𝑦 + 𝑑
③双三次插值
又称立方卷积插值法,是对双线性插值的改进;不仅考虑周围4个像素点的灰度值,还考虑它们的灰度值变化率,该算法需要利用其近邻16个像素点的灰度值。
➢像素间的一些基本关系
1.领域
(1)4领域、对角领域和8领域
邻域是像素和空间之间的关系
(2)m邻接:
①𝑉 用于定义邻接的灰度值 [0,255]的任意一个子集
②在二值图像中, 𝑉 = {1} 表示值为1的像素的邻接
③定义:满足如下条件中的一个,那么值在𝑉 中两个像素𝑝和𝑞是m邻接的;
(i) 𝑞在𝑵𝟒(𝒑) 中
(ii) 𝑞在𝑵𝑫(𝒑) 中,且集合𝑵𝟒(𝒑) ∩ 𝑵𝟒(𝒒)中没有值在𝑉 中的像素
④M邻接的意义
(3)通路与连通
- 通路:像素p到像素q的一条通路,由一系列坐标构成:(𝑥0, 𝑦0 , 𝑥1, 𝑦1 , … , 𝑥𝑛, 𝑦𝑛)
- 连通:通路上的所有灰度值满足相似准则,(𝑥𝑖, 𝑦𝑖)与(𝑥𝑖−1, 𝑦𝑖−1) 邻接
- 𝑅表示图像中像素的一个子集;对于𝑅中的任何像素𝑝 ,在𝑅中连通到该像素的像素集成为𝑅的连通分量;如果𝑅只有一个连通分量,则集合𝑅称为连通集,也称为图像的一个区域;
- 两个区域𝑅𝑖和𝑅𝑗联合形成一个连通集时,称𝑅𝑖和𝑅𝑗为邻接区域;
- 谈到区域时,考虑的是4邻接和8邻接;
- 不邻接的区域称为不相交区域。
2.距离度量
欧几里得距离、D4距离、D8距离
➢数字图像处理中的数学工具
1.点乘与相乘
2.线性与非线性运算
(1)考虑算子ℋ,该算子作用于给定的一幅输入图像𝑓(𝑥, 𝑦) ,产生一幅输出图像𝑔(𝑥, 𝑦) ;
(2)给定两个任意常数𝑎和𝑏,以及两幅任意图像𝑓1(𝑥, 𝑦)和𝑓2(𝑥, 𝑦),若
则称ℋ是一个线性算子。
(3)加性:对两个输入求和的线性运算的输出,与分别对两个输入进行运算
并求和得到的结果相同;
(4)同质性:输入乘以常数的线性运算的输出,与原始输入乘以常数的运算
的输出相同;
3.算术运算
(1)对应像素运算
图像的算术运算针对相同大小的图像, 四种算术运算为加减乘除,均为对应像素运算
如何实现图像的算术运算?
• 8比特图像的灰度值范围为0~255;
• 两幅8比特图像的差值范围为-255 ~ +255,和值的范围0~510;
• 图像转换时,只是简单的把负值转换为0,超过上限值的值转为255;
• 已知由一个或多个算术运算产生的数字图像𝑔 ,确保其值的全部范围落在某个固定比特数的方法如下:
• 执行运算 𝑔𝑚 = 𝑔 − min(𝑔),生成最小值为0的一幅图像;
• 执行运算𝑔𝑠 = 𝐾[ 𝑔𝑚,max (𝑔𝑚)],生成一幅缩放的图像𝑔,其值域为[0,K];
(2)集合和逻辑运算
- (3)空间运算
①单像素运算
用一个变换函数𝑇 改变图像中各个像素的灰度:s=T(z)
②领域运算
灰度值是输入图像中坐标在指定范围内像素灰度值的集合, 如空间均值滤波
③几何变换
几何变换改变图像中像素间的空间关系,涉及两个基本操作:
正向映射:存在多个输出值合并为单个输出像素值或空值的问题;
反向映射:更为常用,扫描输出像素的位置,利用反向映射和内插法求得灰度值;
④灰度内插
同灰度插值中的最近邻插值、双线性插值、双三次插值
⑤图像配准
使用约束点(控制点/同名点),建立两/多幅影像直接的几何关系
⑥向量与矩阵运算
• 普通真彩色影像每个像素可以分为RGB三个分量, 可以写成𝟑 × 𝟏的列向量形式Z=[z1 z2 z3]T的形式, 而多光谱与高光谱影像则可以写成𝒏 × 𝟏的列向量形式;
• 当像素表示为向量, 则一个像素向量z和一个任一点a在n维空间中的欧氏距离D则表示为向量积;
⑦图像变换
• 有时在空间与对像素灰度进行操作并不方便, 可以通过变换输入图像的“ 空间”(变化域),而后在变化域执行指定的任务,之后再用反变换返回到空间域。
• 如对图像进行二维傅里叶变换,在频率域掩膜后(去掉一定频率的干扰信号),再反傅里叶变化还原图像。
⑧概率方法
RGB三通道 𝑝(𝑧𝑘)= 𝑛𝑘𝑀/𝑁的f直方图,峰值偏向于左侧说明该通道较暗,偏向于右侧说明该通道偏亮