数字图像处理学习笔记

最新推荐文章于 2024-06-02 19:47:40 发布

ASAKARUM

最新推荐文章于 2024-06-02 19:47:40 发布

阅读量641

点赞数 2

分类专栏：数字图像处理笔记文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_39275398/article/details/104159649

版权

数字图像处理笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数字图像处理学习笔记：第一、二章

第一章：绪论部分
第二章：数字图像基础

第一章：绪论部分

数字图像处理及其起源

两个主要应用领域：改善图示信息以便人们理解；为存储、传输和表示而对图像数据进行处理，以便于机器自动理解。
一幅图像可以定义为一个二维函数f(x, y)，其中幅值f称为图像的强度或灰度；当x、y和灰度值f是有限的离散数值时，该图像可以称之为数字图像；
数字图像是由有限数量的元素组成的，每个元素都有一个特定的位置和幅值，我们称这些元素为图画元素、图像元素或像素（像素是表示数字图像元素的术语）；
三种典型计算处理：
- 低级处理：降低噪声的图像预处理、对比度增强和图像尖锐化；
- 中级处理：目标分隔、识别、减少目标物的描述；
- 高级处理：“理解”已识别目标的总体（认知功能）。
数字图像处理起源：
- 早期：报纸业，涉及打印过程的选择和亮度等级的分布；
- 与计算机发展密切相关，有两大基本需求——大容量存储和显示系统领域

数字图像领域应用实例

伽马射线成像（核医学和天文观测）
X射线成像（医学诊断、工业和天文学）
紫外波段成像（平板印刷术、工业检测、荧光显微镜方法、生物成像等）
可见光及红外波段成像（土壤、生物、水体、矿物）
微波波段成像（雷达）
无线电波段成像（核磁共振）
其他成像例子（超声波等）

数字图像处理基本步骤

两类问题：
- 输入和输出都是图像：
1. 图像获取：图像预处理；
2. 图像滤波和增强：对图像进行某种操作，使其结果在特定应用中比原始图像更适合进行处理；
3. 图像复原：改进图像外观，倾向于以图像退化的数学或概率模型为基础；
4. 彩色图像处理：彩色模型和数字域的彩色处理；
5. 小波和多分辨率处理：以不同分辨率描述图像；
6. 压缩：减少图像存储量或降低传输图像带宽的处理；
7. 形态学处理：涉及提取图像分量的工具，这些分量用于表示和描述形状。
- 输入可能是图像但是输出是从这些图像中提取的属性：
1. 形态学处理：同上；
2. 分割：把一幅图像划分成它的组成部分或目标；
3. 表示和描述：通常在分割阶段输出（未加工的像素数据）后，确定数据是应该表示为一条边界还是应表示为整个区域，描述又称特征选择，设计提取特征（例如角点和拐点等外部形状特征使用边界是合适的，纹理或骨架形状等内部特征使用区域时合适的）；
4. 目标识别：基于目标的描述给该目标赋予标志的过程。

图像处理系统的组成

典型通用系统的组成：
图像显示器、计算机、大容量存储、硬拷贝、专用图像处理硬件、图像处理软件、图像传感器

第二章：数字图像基础

视觉感知要素

人眼结构：球体，主要包含三层薄膜：角膜与巩膜外壳、脉络膜和视网膜，此外还有晶状体、玻璃体。视网膜表面有两类光感受器：锥状体和杆状体。锥状体对颜色高度敏感，其视觉称为白昼视觉或亮视觉；杆状体分布面积较大且几个杆状体就连接到一个神经末梢，其没有彩色感觉，而对低照明度敏感。
亮度适应与辨别：数字图像使用离散的灰度集来显示，需要考虑眼睛对不同亮度的辨别能力。
- 主观亮度（人的视觉感知的亮度）是进入人眼光强的对数函数（实验数据表明）。
- 亮度适应现象：眼睛辨别不同强度级别的总范围与整个适应范围相比很小，是通过改变整个灵敏度来完成这一较大的变动。
- △I_c/I称为韦伯比，I是光强，△I_c是背景照明为I时可辨别照明增量的50%。韦伯比的值小表示可辨别强度较小的百分比变化，这时亮度辨别能力“较好”，否则较差。
- 在低照明情况，亮度辨别较差，其随着背景照明的增加而明显改善。即在低照明情况下，视觉由杆状体执行；在高照明情况下，视觉由锥状体执行。
- 感知亮度与强度并不是简单的函数，会出现马赫带、同时对比和错觉等现象。

光和电磁波谱

波长和频率关系：λ = c/ν
电磁波谱各个分量的能量：E = hν（h为普朗克常数）
光是一种reshuffle的电磁辐射，而没有颜色的光称为单色光或无色光，，单色光的唯一属性是它的强度或大小，而灰度级用来表示单色光的强度，因而单色图像常称为灰度图像
三个基本量描述彩色光源的质量：发光强度（光源流出能量的总量）、光通量和亮度（描述彩色感觉的参数之一）。

图像感知和获取

三种获取图像的传感器：单个传感器（光二极管等）、条带传感器和阵列传感器
简单的图像形成模型：当一幅图像产生时，其亮度值正比于物理源所辐射的能量，则图像的幅度f满足：0 < f(x,y) < ∞
函数f(x, y)可以用两个分量来表征：
- 入射到被观察场景的光源照射总量（入射分量，i(x, y)）；
- 场景中物体所反射的光照总量（反射分量，r(x, y)）。
- 此时f(x, y)可以表示为：f(x,y) = i(x,y)r(x,y)，其中0 < i(x,y) < ∞，0 < r(x,y) < 1，表示反射分量限制在0（全吸收）和1（全反射）之间。i(x, y)的性质取决于照射源，r(x, y)的性质取决于成像物体的特性
- 区间[L_min, L_max]称作灰度级（或强度级），所有中间值是从黑色到白色之间变化的灰度色调。

图像取样和量化

把连续的感知数据转化为数字形式，这种转换包括取样和量化
对坐标值数字化称为取样，对幅值数字化称为量化
数字图像表示：由一幅图像的坐标张成的实平面部分称为空间域，x和y称为空间变量或空间坐标，表示方法主要有三种：
- f(x, y, z)，其中z坐标用来表示以两个空间变量x和y为函数的f（灰度）值；
- 更一般的表示，即在照片上的情况，每一点的灰度值与该点的f值成正比；
- f(x, y)的值简单的显示为一个矩阵
数字化过程对灰度级数通常去2的整数次幂，即 $L = 2^k$ 假设离散灰度级是等间隔的，且它们是区间[0, L-1]内的整数，通常称其为动态范围。其上限取决于饱和度，下限取决于噪声。
一幅图像最高和最低灰度级间的灰度差称为对比度
存储数字图像所需的比特数b为： $M\times N\times k$ ，因此，通常称一幅图像为k比特图像
空间分辨率是图像中可辨别的最小细节的度量，最常用的度量是每单位距离线对数和每单位距离点数（像素数）
灰度分辨率是指在灰度级中可分辨的最小变化
等偏爱曲线表明：当图像中的细节增加时，等偏爱曲线会变得更垂直，即表明只需要使用较少的灰度级即可。
图像内插通常用于图像收缩、放大、旋转和几何校正（其是基本的图像重取样方法）：用已知数据来估计未知位置的数值的处理。
- 最近邻内插：把原图像中最近邻的灰度赋给了每个新位置（缺陷：直边缘的严重失真）
- 双线性内插：用4个最近邻去估计给定位置的灰度，使用以下公式赋值
  $v (x, y) = a x + b y + c x y + d$ 其中，4个系数a, b, c, d可以用(x, y)点的最近邻点写出方程求解，但是计算量会增加。（其本身不是线性内插方法，因为式子中包含xy项）
- 双三次内插：包含16个最近邻点，公式为 $\sum_{i=0}^3 \sum_{j=0}^3 a_{ij}x^iy^j$ 其中16个系数a可以用16个用(x, y)点最近邻点写出的未知方程确定。通常双三次内插比双线性内插在保持细节方面较好（通常是商业图像编辑程序的标准内插方法）

像素间的一些基本关系

相邻像素：位于坐标(x, y)处的像素p有4个水平和垂直的相邻像素，其坐标由下式给出：(x+1, y), (x-1, y), (x, y+1), (x, y-1)，这组像素称为q的4邻域，用N₄(q)表示，若是加入4个对角相邻像素的坐标，则会一起称为q的8邻域，即N₈(q)。需要注意的是：如果(x, y)位于图像的边界上，则N_D(q)的某些邻点会落入图像的外边
邻接性：零V是用于定义邻接性的灰度值集合，则在二值图像中，如果把具有1值的像素归主与邻接像素，则V = {1}；
m邻接（消除了8邻接导致的二义性，也称作混合邻接）：如果q在N₄( p)中或q在N_D§中，且集合N₄( p)∩N₄(q)中没有来自V中数值的元素，则具有V中数值的两个像素p和q是m邻接的。
连通性：从像素p到像素q的通路是特定序列，且序列中凉凉像素邻接，这种情况下n是通路的长度，若(x₀, y₀) = (x_n, y_n)，则通路是闭合通路。
- 令S是图像的一个像素子集，如果S的全部像素之间存在一个通路，则可以说两个像素p和q在S中是连通的。
- 对于S中的任何像素p，S中连通到该像素的像素集称为S的连通分量。
- 如果S只有一个连通分量，则集合S称为连通集
区域：令R是图像中的一个像素子集，如果R是连通集，则称R为一个区域。两个区域，如果它们联合形成一个连通集，则区域R_i和R_j称为邻接区域。不邻接的区域称为不连接区域（注意：需要提前指定邻接类型）
假设一幅图像包含有K个不连接的区域，即R_k，k=1,2,…,K，且它们都不接触图像的边界。令R_u代表这K个区域的并集，则令(R_u)^c代表其补集。我们称R_u中的所有点为图像中的前景，而称(R_u)^c中的所有点为图像的背景
边界：一个区域的边界（内边界）是该区域中至少有一个背景邻点的像素集合（注意：一个区域及其背景中的点之间的邻接要根据特定的m连通来定义）
距离度量：对于坐标分别为(x, y), (s, t)和(v, w)的像素p、q、z，如果：

(1) D(p, q) ≥ 0 [D(p, q) = 0，当且仅当p = q]
(2) D(p, q) = D(q, p)
(3) D(p, z) ≤ D(p, q) + D(q, z)

则D是距离函数或度量。

常见的距离函数：
- 欧氏距离函数 $D_e(p, q) = \sqrt{(x - s)^2 + (y - t)^2}$ 对应圆平面
- 城市街区距离函数 $D_4(p,q) = |x-s|+|y-t|$ 对应菱形
- 棋盘距离 $D_8(p,q)=max(|x-s|, |y-t|)$ 对应正方形
- m通路距离：满足m邻接定义的通路长度

数字图像处理中常用的数学工具

阵列与矩阵操作
- 阵列相乘：对应元素相乘
- 矩阵相乘：遵循矩阵乘法
线性操作与非线性操作
- 加性：两个输入的和的操作结果等于分别对另两个输入进行操作再求和的结果
- 同质性：输入乘以常数的线性操作的输出等于乘以该常数的原始输入的操作的输出
- 求和算子是线性的，而通常求最大值的操作是非线性的
算术操作：阵列操作
- 针对降噪的带噪图像相加（平均，多幅图像相加趋近原本图像）
- 增强差别的图像相减（求差显示两幅图像的差别）
- 使用图像相乘和相除来校正阴影
- 使用图像相乘来进行模板操作（ROI操作）
- 两幅8比特图像的算术运算根据以下公式，防止负值和超过255的值出现 $f_m=f - min(f)$ $f_s=K[f_m/max(f_m)]$ 其中对于8比特图像来说 K=255
集合和逻辑操作
- 图像灰度的集合操作：
  - 补集：常数与图像中每个像素的灰度间的两两之差，常数等于2^k-1，k为表示灰度的比特数
  - 差集：补集中 K = 255
  - 并集：空间相应元素对的最大灰度值形成的阵列
  - 交集：空间相应元素对的最小灰度值形成的阵列
- AND、OR、NOT三个逻辑算子是功能完备的
- 模糊集合：使用隶属度函数
空间操作
- 单像素操作
- 邻域操作
- 几何空间变换
  - 改进图像中像素间的空间关系，这些变换称为橡皮膜变换，其包含两个基本操作：坐标的空间变化、灰度内插（对空间变换后的像素赋灰度值）
  - 最常用的空间变换：放射变换
    $\begin{bmatrix} x & y & 1 \end{bmatrix} = \begin{bmatrix} v & w & 1 \end{bmatrix} \textbf T = \begin{bmatrix} v & w & 1 \end{bmatrix} \begin{bmatrix} t_{11} & t_{12} & 0 \\ t_{21} & t_{22} & 0 \\ t_{31} & t_{32} & 1 \end{bmatrix}$
  - 放射变换矩阵如下：
  - 使用上式的两种基本方法：前向映射（根据输入图像的位置直接计算输出图像相应像素的空间位置，可能会导致多对一或者某些位置没有像素值）和反向映射（使用(v, w) =T^-1(x, y)，根据输出图像位置找到输入图像位置进行计算，然后使用灰度内插法）
  - 图像配准：对齐两幅或多幅相同场景的图像，目标为估计变换函数，解决方法之一是使用约束点（控制点）
向量和矩阵操作
- 一个像素向量z和一个任意点a在n维空间的欧氏距离D可以用一个向量积定义 $D(\textbf z, \textbf a) = \sqrt{(\textbf z- \textbf a)^T(\textbf z- \textbf a)}$
- 线性变换：使用向量乘积方式计算
图像变换
- 直接工作在空间域
- 变换输入图像，使用预定义的操作修改该变换，再计算修改后的反变换作用得到输出图像，即该过程是从空间域到变换域，再返回到空间域
- 变换核可分：满足 $r(x, y, u, v) = r_1(x, u)r_2(y,v)$
- 变换核对称：满足 $r_1(x, y) = r_2(x, y)$
概率方法：以随机量处理灰度值
- 令z_i，i = 0, 1, 2, …, L - 1表示一幅M×N大小数字图像的所有可能灰度值，则在给定图像中灰度级z_k出现的概率p(z_k)可估计为 $p(z_k)= \frac{n_k}{MN}$
- 灰度的方差是z值关于均值展开度的度量，因此它是图像对比度的有用度量。同时，z的n阶矩也包含了一些灰度和均值的关系以及灰度值分布等信息。