数字图像处理第三版（冈萨雷斯）——第二章数字图像基础

最新推荐文章于 2023-10-09 22:25:35 发布

季捡猹长

最新推荐文章于 2023-10-09 22:25:35 发布

阅读量2k

点赞数 3

分类专栏：数字图像处理文章标签： dip 经验分享其他算法矩阵

本文链接：https://blog.csdn.net/qq_40814104/article/details/106148842

版权

数字图像处理专栏收录该内容

7 篇文章 5 订阅

订阅专栏

2.1 视觉感知要素

虽然数字图像处理这一领域建立在数学和概率公式表示的基础上，但人的直觉和分析在选择一种技术而不选择另一种技术时会起核心作用，这种选择通常是基于主观的视觉判断做出的。

2.1.1 人眼的结构

人眼分辨细节的能力与当前电子传感器是可以类比的

眼睛由三层膜包裹：角膜与巩膜外壳、脉络膜和视网膜。

视网膜

视网膜是眼睛最里面的膜，它布满了整个后部的内壁，当眼睛适当聚焦时，来自眼睛外部物体的光在视网膜上成像。感受器通过感受视网膜表面分布的不连续光形成图案。光感受器分为：锥状体和杆状体。
- 锥状体
  
  每只眼睛中的锥状体数量约为600~700万个，主要位于视网膜中成为中间凹的中间部分，对颜色高度敏感。使用锥状体人可以充分分辨图像细节，因为每个锥状体都连接到自身的神经末梢，肌肉通过控制眼球运动使得感兴趣物体图像落到中央凹上。锥状体视觉称为白昼视觉或亮视觉。
- 杆状体
  
  约有7500~15000万个杆状体分布在视网膜表面，由于分布面积较大而且几个杆状体连接到一个神经末梢，故减少了感受器感受细节的数量，用来给出视野内的总体图像。没有色彩感觉，对低照明度敏感。杆状体视觉称为暗视觉或微光视觉。

2.1.2 亮度适应和辨别

人的视觉系统能够适应的光强度级别范围很宽—从暗阈值到强闪光约有1010个量级。实验数据指出，主观亮度(感知亮度，即由人的视觉系统感知的亮度)是进入人眼的光强的对数函数。
马赫带效应表明感知亮度不是强度的简单函数。

2.2 光和电磁波谱

电磁波谱
$\begin{array}{c} \lambda=c / v \\ E=h v \end{array}$
其中， $c$ 是光速 $2.998×10^8m/s$ 、 $h$ 是普朗克常数。

电磁波的能量与频率成正比
可见光波段的跨越范围： $0.43 μ m$ (紫色)~ $0.79 μ m$ (红色)。
彩色谱主要分为6个主要区域：紫色、蓝色、绿色、黄色、橘黄色和红色。
人感受到的物体颜色由物体反射光的性质决定。若一个物体相对平衡地反射所有可见光，观察者看到的物体是白色的。若一个物体在可见光谱的有限范围内反射时，会呈现各种颜色色调。例如，绿色物体反射波长范围为： $500 n m$ ~ $570 n m$ 的光，而吸收其他波长的大部分能量。
没有颜色的光称为单色光或无色光，其唯一属性是强度或大小。
灰度级：表示单色光的强度。
除频率外，还用3个基本量来描述彩色光源的质量：发光强度、光通量和亮度。发光强度是从光源发出的能量总量，通常用瓦特(W)来度量。光通量给出了观察者从光源感受到的能量，通常用流明数(lm)来度量。亮度是光感知的主观描绘子，它实际上不能度量。它是描述彩色感觉的参数之一，具体体现了强度的无色概念。

2.3 图像感知和获取

使用单个传感器获取图像
使用条带传感器获取图像
使用传感器阵列获取图像

2.3.1 简单的图像形成模型

$f (x, y) = i (x, y) r (x, y)$
其中 $0 < i (x, y) < \infty ， 0 （全吸收） < r (x, y) < 1 （全反射）$
$i (x, y)$ ：入射分量。入射到被观察场景的光源照射总量.
$r (x, y)$ ：反射分量。场景中物体所反射的光照总量.
当一幅图像由物理过程产生时，其亮度值正比于物理源(如电磁波)辐射的能量。
令单色图像的任何坐标 $x_{0},y_{0})$ 处的强度表示为 $\ell=f\left(x_{0}, y_{0}\right)$
其中 $\ell$ 的取值范围为 $[L m i n ， L m a x]$
区间 $[L m i n ， L m a x]$ 为灰度级。实际情况下常令该区间为 $[0 ， L - 1]$ ，其中 $\ell = 0$ 为黑色， $\ell = L-1$ 为白色。
灰度级一般为 $2$ 的整数次幂,且 $L = 2^k$

2.4 图像取样和量化

2.4.1 取样和量化

取样(sampling): digitization of continuous spatial coordinates (x, y) –坐标值数字化
量化(quantization): Digitizing the amplitude values –幅度值数字化
数字图像的质量在很大程度上取决于取样和量化中所用的样本数(对应于取样)和灰度级（对应于量化）。

2.4.2 数字图像的表示

灰度级（Gray levels）、动态范围、对比度：
出于储存和量化硬件的考虑，灰度级数 $L$ 通常取为2的整数次幂，即
$L=2^{k} \Rightarrow$ Dynamic range $= [0, L - 1]$
灰度跨越的值域非正式的称为动态范围Dynamic range在这里定义为系统中最大可度量灰度与最小可检测灰度之比，其上限取决于饱和度，下限取决于噪声。与这一概念紧密联系的是图像的对比度，即一幅图像中最高和最低灰度级间的灰度差。
存储数字图像所需的比特数为
$b=M\times{N}\times{k}$
当一幅图像有 $2 k$ 个灰度级时，实际上通常称该图像为一幅“ $k$ 比特图像”。例如，有256个可能的离散灰度值的图像，称为8比特图像。

2.4.3 空间和灰度分辨率

图像分辨率(image resolution)-- 数字图像解析场景元素的能力(capability of digital images to resolve the elements of scene)，即单位距离内可分辨的最大线对数量
空间分辨率（取样）（spatial resolution）: 图像中可辨别的最小细节的度量Smallest discernible detail (or spatial size) in an image。空间分辨率的度量必须针对空间单位来规定才有意义。单位距离的线对数和单位距离的**点数(像素数)（印刷出版业，dpi(dots per inch）**是最通用的度量。
灰度分辨率（量化）（gray-level resolution）：灰度级中可分辨的最小变化Smallest discernible change in gray level。灰度分辨率指的是用于量化灰度的比特数,最通用的数是8比特。例如，通常说一幅被量化为256灰度级的图像有8比特的灰度分辨率.
图像分辨率表示的是能看到图像细节的多少，依赖于MxN和L
保持MxN不变而减少L则会导致伪轮廓
保持L不变而减少MxN则会导致取样棋盘格
空间分辨率和灰度分辨率的变化对图像质量的影响
**等偏爱曲线：**在N-k平面内对应于主观感觉质量相等的曲线
实验结果：当图像中的细节增加时，等偏爱曲线会更加垂直。
结论：
1. 图像质量一般随N和k的增加而增加，在极少数情况下，对固定的N，减少k能改进质量。最有可能的原因是减少k常能增加图像的视觉反差
2. 当N值固定时，这类图像的感觉质量与所用灰度级数(对于图2.23所示的灰度级范围)近似无关。
3. 对具有大量细节的图像，只需很少的灰度级数就可较好的表示
4. $N\times{k}$ 为常数的图像主观看起来可以有较大的差异

2.4.4 图像内插（image interpolation）

内插广泛用于放大、收缩、旋转和几何校正等处理中，本质上，内插是用已知数据来估计未知位置的数值的处理。

最近邻内插：把原图像中最近邻的灰度赋给了每个新位置，最简单，但会造成某些直边缘严重失真。
双线性内插：用4个最近邻点去估计给定位置的灰度，可给出比最近邻内插好得多的结果，但随之而来的是计算量的增加。注意：双线性内插不是一种线性内插方法。
$v (x, y) = a x + b y + c x y + d$
其中， $v (x ， y)$ 为 $（ x ， y ）$ 处赋予的灰度值。系数可由4个最邻近点写出的未知方程确定。
双三次内插：用16个最近邻点，复杂度较高，在保持细节方面比双线性内插相对要好。双三次内插是商业图像编辑软件Adobe photoshop和Corel Photopaint的标准内插方法。
$v(x,y)=\sum_{i=0}^3\sum_{j=0}^3{a_{ij}x^iy^j}$

2.5 像素间的一些基本关系

2.5.1 相邻像素

4邻域：位于 $(x, y)$ 的像素p的4个水平和垂直的相邻像素,其坐标为:
$(x + 1, y), (x - 1, y), (x, y + 1), (x, y - 1)$ 用 $N_4（p）$ 表示。
$D$ 邻域: $p$ 的四个对角相邻像素，坐标为：
$(x + 1, y + 1), (x + 1, y - 1), (x - 1, y + 1), (x - 1, y - 1)$ 用 $N_D(p)$ 表示
8邻域：p的4邻域和D邻域一起构成p的8邻域,用 $N_8(P)$ 表示。

2.5.2 邻接性、连通性、区域和边界

(a) 4-adjacency.Two pixels p and q with values from V are 4-adjacent if q is in the set $N_4(P)$
(b) 8-adjacency.Two pixels p and q with values from V are 8-adjacent if q is in the set $N_8(P)$
© m-adjacency (mixed adjacency).Two pixels p and q with values from V are m-adjacent if
(i) q is in $N_4(P)$ or
(ii) q is in $N_D(P)$ and the set $N_{4}(p) \cap N_{4}(q)$ has no pixels whose values are from V.

通路：像素 $p(x_0,y_0)$ 到像素 $q(x_n,y_n)$ ，且其中的每个点与前后两点是k（k可取4，8，m）邻接的，则称p到q是k通路，其中n为通路的长度，若起点p和终点q重合，则称通路为闭合通路。
连通性：令S是图像中的一个像素子集。如果S的全部像素之间存在一个通路，则可以说两个像素p和q在S中是连通的。
区域：令R是图像中的一个像素子集。如果R是连通集，则称R为一个区域。在谈到区域时，一般考虑4邻接或8邻接。必须指定邻接类型。
区域R的边界(也称为边缘或轮廓)是这样的点集，这些点与R的补集中的点邻近。或者说，一个区域的边界是该区域中至少有一个背景邻点的像素集。该定义的边界一般指区域的内边界，外边界是指背景边界。
多数情况下，区域指的是一幅图像的子集。如果R恰巧是整幅图像(假设图像是像素的方形集合)，则边界是由图像的第一行、第一列和最后一行、最后一列的像素集合来定义。
边界（boundary）和边缘（edge）的区别
边界（boundary）：一个有限区域的边界形成一条闭合通路，且是“整体”概念。
边缘（edge）：由具有某些超过预先设定的阈值的导数值的像素形成，是基于在进行灰度级度量时不连续点的“局部”概念。第**10章在概念上，将边缘考虑为灰度不连续，把边界考虑为闭合通路。**边缘和边界吻合的一个例外是二值图像，根据连通类型和所用的边缘算子(第10章)，从二值区域提取边缘与区域边界是一样的。

2.5.3 距离度量

欧式距离 $D_e$

对于坐标分别为(x,y)，(s,t)和(v,w)的像素p，q和z，若
D(p,q)>=0 [D(p,q) = 0 , 当且仅当p = q] 正定性
D(p,q) = D(q,p) 且对称性
D(p,z) <= D(p,q) + D(q,z) 距离三角不等式
则D是距离函数或度量。

欧几里得（欧式）距离：
$D_{e}(p, q)=\left[(x-s)^{2}+(y-t)^{2}\right]^{\frac{1}{2}}$
距点(x,y)的距离小于等于某个值r的像素构成以p点为圆心，半径为r的圆。

城市街区距离 $D_4$
$D_{4}(p, q)=|x-s|+|y-t|$
距点(x,y)的距离 $D_4$ 小于等于某个值r的像素形成一个中心在(x,y)的菱形。
例如距点(x,y)的距离 $D_4$ 小于等于2的像素形成的固定距离的轮廓如下：
$\begin{array}{llll} & & 2 & \\ & 2 & 1 & 2 \\ 2 & 1 & 0 & 1 & 2 \\ & 2 & 1 & 2 & \\ & & 2 & & \end{array}$
棋盘距离 $D_8$
$D_{8}(p, q)=\max (|x-s|,|y-t|)$
距(x,y)的 $D_8$ 距离小于等于某个值r的像素形成中心在(x,y)的方形。
例如距中心点的 $D_8$ 距离小于等于2的像素形成的固定距离的轮廓如下：
$\begin{array}{lllll} 2 & 2 & 2 & 2 & 2 \\ 2 & 1 & 1 & 1 & 2 \\ 2 & 1 & 0 & 1 & 2 \\ 2 & 1 & 1 & 1 & 2 \\ 2 & 2 & 2 & 2 & 2 \end{array}$

2.6 数字图像处理所用数学工具介绍

2.6.1 阵列与矩阵操作

包含一幅或多幅图像的阵列操作是逐个像素执行的，图像可以等效地视为矩阵。事实上，在很多情况下，图像间的操作是用矩阵理论执行的(见2.6.6节)。
阵列相乘（The array product of two images）：
$\left[\begin{array}{ll} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array}\right]\left[\begin{array}{ll} b_{11} & b_{12} \\ b_{21} & b_{22} \end{array}\right]=\left[\begin{array}{ll} a_{11} b_{11} & a_{12} b_{12} \\ a_{21} b_{21} & a_{22} b_{22} \end{array}\right]$
矩阵相乘（the matrix product）：
$\left[\begin{array}{ll} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array}\right]\left[\begin{array}{ll} b_{11} & b_{12} \\ b_{21} & b_{22} \end{array}\right]=\left[\begin{array}{ll} a_{11} b_{11}+a_{12} b_{21} & a_{11} b_{12}+a_{12} b_{22} \\ a_{21} b_{11}+a_{22} b_{21} & a_{21} b_{12}+a_{22} b_{22} \end{array}\right]$
若未特别说明，书中均是阵列操作。

2.6.2 线性操作与非线性操作

线性: 加性(叠加性)+同质性(齐次性)
对
$H [f (x, y)] = g (x, y)$ 其中 $H$ 为一个一般的算子， $f (x, y)$ 为输入图像， $g (x, y)$ 为输出图像，若：
$\begin{aligned} H\left[a_{i} f_{i}(x, y)+a_{j} f_{j}(x, y)\right] &=a_{i} H\left[f_{i}(x, y)\right]+a_{j} H\left[f_{j}(x, y)\right] \\ &=a_{i} g_{i}(x, y)+a_{j} g_{j}(x, y) \end{aligned}$ $where\ a_i,a_j,f_i(x,y)andf_j(x,y)\ are\ arbitrary\ constants\ and\ images\ (of\ the\ same\ size), respectively$ 则 $H$ 是线性的.
结论：
求和算子是线性的。
通常求最大值的操作是非线性的。

2.6.3 算术操作

图像间的算术操作是阵列操作，即算术操作在相应的像素对之间执行。（图像算术操作涉及相同大小的图像）。
带噪图像（带有噪声的图像）相加（平均）可降噪
图像相减增强差别
图像相乘（或相除）用于阴影校正
图像相乘的另一种普通应用是模板操作，也称为感兴趣区域(Region of Interest， ROI)操作。
图像标定
给定一幅图像f，保证图像间算术操作的整个值域落入某个固定比特数的方法如下。首先执行操作：
$f_m=f-min(f)$
该操作生成最小值为0的一幅图像。然后再执行操作：
$f_s=K[f_m/max(f_m)]$
该操作生成一幅标定的图像 $f_s$ ，其值在范围 $[0, K]$ 内。在执行除法操作时，要避免除以0的情况发生,要加上一个很小的数，MATLAB编程时，+eps

2.6.4 集合和逻辑操作

集合操作
图像中的逻辑操作主要以像素对像素为基础，在两幅或多幅图像间进行。
灰度值的并集操作和交集操作通常分别定义为相应像素对的最大和最小。而补集操作定义为常数（ $2^k-1$ ）与图像中每个像素的灰度间的两两之差。
逻辑操作
or and not xor

2.6.5 空间操作

单像素操作
以灰度为基础改变单个像素的值。
邻域操作
令 $S_{xy}$ 代表图像中以任意一点 $(x, y)$ 为中心的一个邻域的坐标集。邻域处理在输出图像 $g$ 中的相同坐标处生成一个相应的像素，假设指定的操作是计算在大小为 $m\times{n}$ 、中心在 $(x, y)$ 的矩形邻域中的像素的平均值。
则：
$y)=\frac{1}{m n} \sum_{(r, c) \in S_{xy}} f(r, c)$
几何空间变换

几何变换改进图像像素间的关系。
基本操作组成如下：
（1）坐标的空间变换
（2）灰度内插，即对空间变换后的像素赋灰度值。
最常用的空间坐标变换之一是仿射变换： $1]=\left[\begin{array}{lllll} v & w & 1 \end{array}\right] \mathbf{T}=\left[\begin{array}{lll} v & w & 1 \end{array}\right]\left[\begin{array}{lll} t_{11} & t_{12} & 0 \\ t_{21} & t_{22} & 0 \\ t_{31} & t_{32} & 1 \end{array}\right]$
图像配准
图像配准用于对齐两幅或多幅相同场景的图像。在图像配准中，主要问题是估计变换函数，然后用它配准两幅图像。

2.6.6 向量与矩阵操作

多光谱图像处理是使用向量和矩阵操作的典型领域

2.6.7 图象变换

目前为止讨论的所有图像处理方法，都直接工作在空间域。在有些情况下，通过变换输入图像来表达图像处理任务，在变换域执行指定任务，之后再用反变换返回到空间域，更为可取。表示为 T(u,v)的二维线性变换是一类特别重要的变换，其通用形式可表达为：
$v)=\sum_{x=0}^{M-1} \sum_{y=0}^{N-1} f(x, y) r(x, y, u, v)$
式中， $f (x, y)$ 是输入图像， $r (x, y, u, v)$ 称为正变换核。给定 $T (u, v)$ 后，我们可以用 $T (u, v)$ 的反变换还原 $f (x, y)$ ：
$y)=\sum_{u=0}^{M-1} \sum_{v=0}^{N-1} T(u, v) s(x, y, u, v)$ 式中， $s (x, y, u, v)$ 称为反变换核。

在这里插入图片描述

二维傅里叶变换有如下正、反变换核：
$v)=\mathrm{e}^{-\mathrm{j} 2 \pi(u x / M+v y / N)}$
$v)=\frac{1}{M N} \mathrm{e}^{\mathrm{j} 2 \pi(u x / M+v y / N)}$
离散傅里叶变换对：
$v)=\sum_{x=0}^{M-1} \sum_{y=0}^{N-1} f(x, y) \mathrm{e}^{-\mathrm{j} 2 \pi(u x / M+v y / N)}$
$y)=\frac{1}{M N} \sum_{u=0}^{M-1} \sum_{v=0}^{N-1} T(u, v) \mathrm{e}^{\mathrm{j} 2 \pi(u x / M+v y / N)}$

2.6.8 概率方法

例如，令 $z_{i}, i=0,1,2, \cdots, L-1$ 表示一幅 $M\times{N}$ 大小数字图像中所有可能的灰度值，则在给定图像中灰度级 $Z_k$ 出现的概率 $P(Z_k)$ 可估计为
$p\left(z_{k}\right)=\frac{n_{k}}{M N}$ 式中, $n_k$ 是灰度 $Z_k$ 在图像中出现的次数，MN 是像素总数。显然：
$\sum_{k=0}^{L-1} p\left(z_{k}\right)=1$
平均灰度：
$m=\sum_{k=0}^{L-1} z_{k} p\left(z_{k}\right)$
灰度的方差是： $\sigma^{2}=\sum_{k=0}^{L-1}\left(z_{k}-m\right)^{2} p\left(z_{k}\right)$
方差是Z值关于均值的展开度的度量，因此它是图像对比度的有用度量。通常，随机变量关于均值的第阶矩定义为 $\mu_{n}(z)=\sum_{k=0}^{L-1}\left(z_{k}-m\right)^{n} p\left(z_{k}\right)$

注：本人初学数字图像处理，将学习笔记记录于此，书本图片库、英文原版电子书等相关学习资源欢迎关注微信公众号痕中光获取。

季捡猹长

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
数字图像处理第三版（冈萨雷斯）——第二章数字图像基础

数字图像处理（冈萨雷斯）——第二章数字图像基础一、视觉感知要素1.1人眼的结构1.2亮度适应和辨别二、光和电磁波谱三、图像感知和获取四、图像取样和量化五、像素间的一些基本关系六、数字图像处理所用数学工具介绍一、视觉感知要素虽然数字图像处理这一领域建立在数学和概率公式表示的基础上，但人的直觉和分析在选择一种技术而不选择另一种技术时会起核心作用，这种选择通常是基于主观的视觉判断做出的。1.1人眼的结构人眼分辨细节的能力与当前电子传感器是可以类比的眼睛由三层膜包裹：角膜与巩膜外壳、脉络膜和视网膜。
复制链接

扫一扫