数字图像处理自学笔记 (武汉大学贾永红)

最新推荐文章于 2023-05-07 10:01:49 发布

kawayiQuasimodo

最新推荐文章于 2023-05-07 10:01:49 发布

阅读量8.5k

点赞数 19

文章标签：图像处理

本文链接：https://blog.csdn.net/kawayiQuasimodo/article/details/122744614

版权

学习目标：

数字图像处理(仅以自己现有知识和能力进行了一点点总结,图片都是网课截图)

学习内容：

mooc课程数字图像处理武汉大学贾永红(第六次开课)

第一章——绪论

数字图像处理的概念

图像：对客观对象的一种相似性的，生动的写真或描述

图像类别：
### mooc课程截图

伽马射线成像
x射线成像
紫外线成像
可见光与红外波段成像
微波成像
无线电波成像
其他成像模式：超声波成像，电子显微镜方法，合成成像

分类：

彩色图像与非彩色图像
模拟图像与数字图像
模拟图像：空间坐标和亮度可以用函数表示
数字图像：可以用数组或矩阵表示(值全是整数)

图像处理：对图像进行一系列操作，达到预期目的。
模拟图像处理借助光学设备
数字图像处理借助计算机（计算机图像处理）

数字图像处理的内容

研究图像的获取，传输，存储，变换，显示，理解和综合利用

按抽象程度不同分为三个层次：

狭义图像处理：图像到图像的一种处理，处理对象是像素。
图像分析：对图像中的目标进行检测和测量，从而获得图像描述，处理对象是目标。
图像理解：在图像分析基础上，对目标用符号来表示，研究符号的属性和符号之间的关系，对场景进行解译和规划。

在这里插入图片描述

狭义图像处理

图像的数字化：由模拟图像得到数字图像
图像变化：简化图像处理问题，有利于特征提取，加强对图像信息的理解主要介绍傅里叶变化的算法性质和应用
图像增强：主要介绍增强方法及应用
图像恢复与重建：将退化，模糊的图像复原，包括图像辐射校正和几何校正等内容；由断层扫描图像得图像的二维和三维图像。
图像编码：研究图像简化，压缩，便于存储和传输。

图像分析

图像分割：是图像分析的首要步骤，将一幅图像分为互不重叠的区域的处理，主要介绍方法和应用。
二值图像处理和形状分析：介绍二值图像的集合概念，二值图像的各种变形操作和二值图像特征提取与分析的各种方法
纹理分析：纹理图像的概念，特征提取方法应用。
图像识别：对图像中的各个目标进行分类，解译等。

数字图像处理系统：

软件：系统管理，图像数据管理，图像处理模块
硬件：图像采集，图像显示，图像存储，图像通讯，计算机。

在这里插入图片描述

图像获取装置：图像采集，摄像机，扫描仪（光敏感器件和模/数转化装置）
图像显示：软拷贝，硬拷贝。(取决于是否将图像保存下来，例：投影是软拷贝，打印是硬拷贝)
图像存储：各种东西。我感觉没啥用。
图像通讯：把图像传送到远方终端，静止图像通讯，活动图像通讯。
主机：
微型图像处理系统：微机和工作站
大型图像处理系统：大型计算机

数字图像处理的特点

精度高再现性好通用性好，灵活性强

数字图像处理的应用

应用很广还有目前进展和面临挑战一些例子

第二章——数字图像获取

图像数字化

图像数字化是数字图像处理的物理基础
图像数字化：将一副真实世界图像转化为计算机能处理的数字图像的过程。
具体操作：将一副图像分割成一个个小区域（像元或像素），并用整数表示。包括采样和量化两个过程。像素属性 = (位置，颜色 )

数字图像的表示

用矩阵描述——（左上角为f(0,0)，右下角为f(M,N)）

根据图像的灰度级数分为：黑白图像，灰度图像和彩色图像：

黑白图像：只有0，1 即白，黑（二值图像）
灰度图像：0~255，8位。
彩色图像： R,G,B三个通道构成，24位。

图像数字化过程

两个步骤：采样，量化

采样：将空间上连续分布的图像变换成离散点。
两个参数：采样间隔(满足采样定理)，采样孔径：采样采用的形状和大小(与采样方式有关)通常形状分为：圆，正方，长方，椭圆；采样方式分为：有缝，无缝，重叠;
量化：将像素灰度转换为离散的整数值的过程.
灰度级(G,一般为2的整数幂)：一副数字图像中不同灰度值的个数。若G=256级，则，成为8bit量(g)。

采样，量化参数与数字化图像之间的关系

数字化方式可分为均匀采样，量化和非均匀采样，量化。图像数字化一般为均匀采样和量化方式，具体指采样和量化为等间隔方式。非均匀采样间距与图像细节的丰富程度有关。非均匀量化间隔与图像层次大小有关。
采样间隔越大，像素越少，空间分辨率低，质量差，数据量小。
量化等级越多，所得图像层次越丰富，灰度分辨率越高，质量越好，数据量越大。

图像数字化设备

数字化器必须能够将图像划分为若干像素并分别给他们地址，能够度量每一位像素的灰度并量化为整数，能够将这些整数写入存储设备。

组成：采样孔，图像扫描机构，光传感器，量化器，输出存储体。
扫描仪工作原理：感觉没啥大用~~~~
扫描仪分类：依扫描对象分类：反射式和透射式;依其组成结构分类：分为手持式，平板式，滚筒式。

在这里插入图片描述

图像灰度直方图

灰度直方图是反映一副图像中各灰度级像素出现的频率与灰度级的关系，以灰度级为横坐标，频率为纵坐标，绘制频率同灰度级的关系图就是一副灰度图像的直方图。反映了图像灰度分布的状况。

灰度直方图性质：

只反映灰度分布情况，不反映像素的位置；
一副图像对应唯一的灰度值方图，不同图像可能对应同一直方图；
一副图像分成多个区域，多个区域的直方图之和即为原图像的直方图。

直方图应用：判断图像量化是否恰当；确定图像二值化的阈值(直方图具有二峰性的灰度图像)。

图像处理算法的形式

数字图像处理算法，是利用数据原理和计算机程序对数字图像进行处理的基础。

单幅图像——>单幅图像
多幅图像——>单幅图像
单(或多)幅图像——>数字或符号等

下面介绍几种基本功能和算法形式：

局部处理：输出像素由输入图像对应位置的领域内的像素值确定。例：卷积运算
领域：像素周围的像素构成的集合(范围可以取合适的整数)叫做该像素的领域。
点处理：输出像素由输入图像对应位置的像素值确定。
大局处理：输出像素由输入图像大范围或全部像素的值确定。
迭代处理：反复对图像进行某种运算直至满足给定的条件，从而得到输出图像。
例：细化过程
跟踪处理：选择满足适当条件的像素作为起始像素，检查输入图像和已得到的输出结果，求出下一步应该处理的像素，进行规定的处理，然后决定是继续处理下面的像素，还是终止处理。
特点：目标像素依赖于前一个像素的位置和处理条件。
窗口处理和模板处理：这两者是仅对画面中特点的部分进行处理的代表。
窗口处理：单独对图像中选定的矩形区域内的像素进行处理。
模板：任意形状的区域。
模板平面：一个和处理图像相同大小的二维数组，用来存储模板信息。一般是一副二值图像。
模板处理：参照模板平面对图像进行某种操作。
串行处理和并行处理：
串行处理：后一像素输出结果依赖于前面像素处理的结果，并且只能依次处理各像素而不能同时对各像素进行相同处理的一种处理形式。
特点：处理算法要按一定顺序进行。
并行处理：对图像内各像素同时进行相同形式运算的一种处理形式。
特点：各输出值可以独立进行运算。

图像的数据结构与特征

图像的数据结构和文件结构是指数字图像在计算机中存储的组织方式，是计算机算法应用于图像处理的数据基础。

图像的数据结构

图像像素灰度值的存储方式。常用方式是将图像各像素灰度值用一维或二维数组相应的各元素加以存储。

也有其他存储方式：

组合方式：一个字长存放多个像素灰度值。
特点：节省内存，计算量增加，处理程序复杂；使用很少。
比特面方式：将所有像素灰度的相同比特位用一个二维数组表示，形成比特面。
特点：能充分利用内存空间，便于进行比特面之间的计算，但对灰度图像处理耗时较多。
分层结构：从原始图像开始依次构成像素数愈来愈少的系列图像，使数据表示具有分层性。例：锥形(金字塔)结构。
锥形结构：对于2^k×2^k个像素形成的图像，依次构成分辨率下降的k+1幅图像的层次集合。
构建方法：从原图像开始，依次产生行列数为原来1/2的图像，将原图像2×2像素的灰度的平均值作为生成图像的像素值。
特点：可以先对低分辨率图像进行处理，然后更具需要对高分辨率图像进行处理，可以提高效率。
树结构：对一副二值图像的行，列接连不断地二等分，如果图像中全体像素都具有相同地特征时，这一部分不再分割。
特点：可以把图像用4叉树表示。用于特征提取和信息压缩等。

多重图像数据存储：对于彩色图像或多波段图像而言，每个像素包括着多个波段的信息。

存储方式有三种：
1.逐波段存储，分波段处理时采用。
2.逐行存储，逐行扫描记录设备采用。
3.逐像素存储，用于分类。

图像文件格式

按不同的方式进行组织或存储数字图像像素的灰度，就得到不同格式的图像文件。不同格式有不同的扩展名。
常见扩展名有：RAW,BMP,TGA,PCX,GIF,TIFF。

这些格式大致都包含下列特征：
1.描述图像的高度，宽度以及各种物理特征的数据
2.彩色定义
3.描述图像的位图数据体

下面对RAW，BMP格式作详细介绍：

RAW格式：将像素按行列号顺序存储在文件中。这种文件只含有图像像素数据，不含有信息头，因此读入图像时，需要事先知道图像大小。是最简单的一种图像文件形式。
BMP格式：由以下四个部分组成：14字节的文件头；40字节的信息头；8字节的颜色定义；位图数据；
调色板：实际上是一个数组，每个元素为RGBQUAD结构，占4个字节。有些位图(如真彩色图)没有调色板，信息头后直接是位图数据。
位图数据：对于用到调色板的位图，图像数据就是该像素颜色在调色板种的索引值；对于真彩色图，图像数据就是实际的RGB值。
GIF格式：基于颜色列表，最多支持8位。GIF支持在一副GIF文件中存储多幅彩色图像，并且可以按照一定的顺序和时间间隔将多幅图像依次读入并显示在屏幕上，这样就可以形成一种简单的动画效果。一般由7个数据区组成：头文件；通用调色板；位图数据区；四个扩充区；
TIFF格式：尤其特有的标识信息，并能进行自定义，是一种开放易于扩展的数据格式，你能支持较大数据量和不同定义方式的影像数据。由三部分组成：文件头；标识信息区；图像数据区。

第三章——图像变换的预备知识(图像傅里叶变换)

图像傅里叶变换是图像变换的一种方式。
图像变换：通过某种变换关系，将空间图像用另一种方式来表达和表示。是对图像的另外一种表达。
图像变换的目的：

使图像处理问题的简化
有利于图像特征的提取
特征提取(对从影像中提取目标非常重要)的目的是为了对影像进行分析，根据特征从影像中提取目标等有用信息。
有助于从概念上增强对图像信息的理解

图像变换通常是一种二维正交变换，一般要求：

正交变换必须是可逆的；(空间域<——>变换域)
正变换和反变换的算法不能太复杂；(计算量大会失去简化图像处理的意义)
正交变换的特点是在变换域中图像能量将集中分布在低频率成分上，边缘，现状信息反映在高频率成分上，有利于图像处理；

正交变换广泛应用于图像增强，图像恢复，特征提取，图像压缩编码，形状分析等。

傅里叶变换：

相关概念和性质略
傅里叶级数清楚地表明了信号由哪些频率分量组成及其所占地比重，从而有利于对信号进行分析与处理。
可以将傅里叶变换比作一个棱镜，棱镜本用于将光分解为不同波长(频率)的光，而傅里叶变换是将函数基于频率分解为不同的成分，借此来分析原函数。
假设f(x,y)是一副图像，再原点的傅里叶变换等于图像的平均灰度级。即常说的直流分量。
可分离性：二维DFT可分离为两次一维DFT。
FFT需满足行列均为2ⁿ。
旋转性质：f(x,y)旋转相同角度，其傅里叶变换也旋转相同角度。(由极坐标可证明)
相关定理：空域f(x,y)与g(x,y)的相关等价于频域中F(u,v)的共轭与G(u,v)相乘。
相关的应用在于匹配：确定是否有感兴趣的物体区域。

第四章——图像增强

图像增强的点运算

图像增强：采用一系列技术改善图像的视觉效果，或将图像转化成一种更合适于人或机器进行分析和处理的形式。

主要方法(按照图像的作用域)：
空间域增强：直接对图像各像素进行处理；
频率域增强：对图像经傅里叶变换后的频谱成分进行处理，然后逆傅里叶变换得到所需要的图像。

图像增强的目的：
1.改善视觉效果。
2.突出图像中感兴趣的信息，抑制不重要的信息，来提高图像的使用价值。
3.转换为更适合于人或机器分析处理的形式。
4.增强后的图像不一定保真。

图像增强的主要方法：

1.对比度增强：扩大图像中感兴趣特征的目标

灰度变换法：线性变换；对数变换；指数变换；
灰度变换是图像增强的重要手段之一，通过调整图像的灰度动态范围或调整图像的对比度对图像进行调整。
对比度：通俗讲为明暗的对比强度；

线性变换：生成图像灰度值为原来的线性变化(曝光不足或过度)；
分段线性变换：将不同段的灰度值经不同的线性函数生成生成图像(只对图像中部分目标感兴趣，这时候需要突出感兴趣目标所在的灰度区间，抑制不感兴趣的灰度区间)；
非线性灰度变换：使用非线性函数作为映射函数，如对数变换和指数变换
    对数变换：生成图像灰度值为原来的对数变化(与人的视觉匹配)；
    指数变换：生成图像灰度值为原来的指数变化；

直方图调整法：直方图均衡化；直方图规定化；

2.空间域增强(空间域平滑和空间域锐化)

图像平滑是通过积分过程使图像边缘模糊，而图像锐化是通过微分使图像边缘突出，清晰；

图像平滑也称为图像去噪，是为了抑制图像噪声改善图像质量进行的处理。这种噪声可能是在图像获取和传输等过程中造成的，噪声会使图像恶化，质量下降，图像模糊，特征淹没，对图像分析很不利。

空间域的几种平滑方法：

领域平均法；
超限像素平滑法；
有选择保边缘平滑法；

中值滤波法；

 领域平均法：假设图像由许多灰度恒定的小块组成，相邻的像素之间存在很高的空间相关性，而噪声则是统计独立的。所以可以用领域内各像素的灰度平均值代替像素原来的灰度值，实现图像的平滑。
       领域平均法相当于卷积的特例；
       特点：算法简单，但是降低噪声的同时会使图像产生模糊，特别是在边缘处和细节处，且领域越大，去噪能力增强的同时模糊程度越严重；
 超限像素平滑法：对领域平均法作了改进，将原像素与邻域平均法所得像素作差的绝对值运算，所得结果与选定阈值比较，来决定新像素的灰度值。
       特点：对抑制椒盐噪声比较有效；对保护微小灰度差的细节和纹理也比较有效；
 有选择保边缘平滑法：对任意像素的5*5领域，采用9个掩模，其中包括一个3*3正方形，四个5边形和四个6边形。计算各个掩模的均值和方差，对方差进行排序，最小方差所对应的掩模区的灰度均值就是像素的输出。
       特点：用方差来测度区域的灰度均匀性，如果区域内含有尖锐的边缘，它的灰度方差就会很大，如果不含边缘或灰度均匀的区域，方差就小，所以最小方差所对应的区域就是灰度最均匀区域，这种平滑方法既能消除噪声，又不会破坏区域边界的细节；
 中值滤波法：(这个课好像被吞了……以下是百度资料)是一种非线性滤波器，也是一种统计排序滤波器，每一像素点的灰度值为某领域窗口内的所有像素点灰度值的中值；
       特点：对孤立的噪声像素即椒盐噪声，脉冲噪声具有良好的滤波效果，可以保持图像的边缘特性；

图像锐化目的是增强图像的边缘或轮廓。

图像锐化方法：

梯度法：(最常使用)

在这里插入图片描述

对于离散图像处理来说，常用的是大小，称为梯度；
而上图公式2中的一阶偏导数用一阶差分近似的表示(如下图)；

在这里插入图片描述

除了梯度算子，还有Roberts算子，Prewitt算子和Sobel算子也可计算梯度，增强边缘。

Prewitt算子：加大了边缘增强算子的模板大小，由2×2扩大到3×3，目的是在锐化边缘的同时减少噪声的影响。

Sobel算子：在Prewitt算子基础上，对4-领域采用加权的方法计算差分。

梯度法得到图像的输出方式：

用图像的梯度表示图像
仅显示灰度变化比较陡的边缘轮廓，而灰度变化比较平缓的区域为黑色；
增加阈值，在梯度不满足关系时用原像素表示图像
可使明显的边缘轮廓得到突出，又不会破坏原来灰度变化比较平缓的背景
把明显的边缘用一个固定的灰度级L_G来表示
把背景用固定的灰度级L_G表示，便于研究边缘灰度的变化。
明显边缘和背景分别用灰度级L_G和L_B表示，生成二值图像，便于研究边缘所在位置。

Laplacian增强算子方法：

在这里插入图片描述
特点：在灰度均匀的区域内或斜坡中间值为0，增强图像上像元灰度不变；在斜坡底或低灰度侧形成“下冲”；而在斜坡顶或高灰度侧形成“上冲”。

高通滤波法：用高通算子和图像卷积来增强边缘。
常用算子有：在这里插入图片描述

3.频率域增强

基本原理：选择合适的滤波器H对原图像进行傅里叶变换后F的频谱成分进行处理，然后经逆傅里叶变换的到增强后的图像g。

一般过程：
在这里插入图片描述
对于图像来讲，噪声主要在高频部分，所以要用低通滤波器来抑制图像的高频成分，再经过逆傅里叶变化得到滤波图像，以达到平滑图像的目的。

常用的频率域低通滤波器：

理想低通滤波器

在这里插入图片描述

Butterworth低通滤波器
指数低通滤波器
梯形低通滤波器

4.彩色增强技术

人的视觉特性：
分辨的灰度级介于十几到二十几之间；
彩色分辨能力可达到灰度分辨能力的百倍以上；

伪彩色增强技术：是把黑白图像的各个不同灰度级按照线性或非线性的映射函数变换成不同的彩色，得到一副彩色图像的技术。

伪彩色增强的方法：密度分割法，灰度级-彩色变换等；

密度分割法：把黑白图像的灰度级从黑到白分成N个区间，给每个区间指定一种彩色C_i，这样便可以把一副灰度图像变成一副彩色图像。
灰度级-彩色变换：根据色度学原理，将原灰度图像的灰度范围分段，经过红，绿，蓝三种不同变换，变成三基色分量，然后用它们分别去控制彩色显示器的红，绿，蓝电子枪，便可以在彩色显示器的屏幕上合成一副彩色图像。

下为三种变换的函数(从左至右分别为红变换，绿变换，蓝变换)

第五章——图像复原与重建

图像退化模型

成像过程中，不同因素的影响导致影像质量下降，导致图像退化。

图像退化：图像在形成，传输和记录过程中，由于成像系统，传输介质和设备的不完善，使图像的质量变坏。
典型表现：模糊，失真，有噪声。
产生原因：成像系统像差，传感器拍摄姿态和扫描非线性，成像设备与物体运动的相对运动，大气湍流，成像和处理过程中引入的噪声等。

图像退化的数学模型
输入图像f(x,y)经过某个退化系统后输出的是一副退化的图像。为了讨论方便，把噪声引起的退化即噪声对图像的影响一般作为加性噪声考虑。原始图像f(x,y)经过一个退化算子或退化系统h(x,y)的作用，再和噪声n(x,y)进行叠加，形成退化后的图像g(x,y)。

通常我们假设图像经过的退化系统是线性时不变系统(这里注意是线性移不变系统)

用线性移不变系统模型来描述图像退化的原因：

由于许多种退化都可以用线性位移不变模型来近似，这样线性系统中的许多数学工具如线性代数，能用于求解图像复原问题，从而使运算方法简捷和快速。
当退化不太严重时，一般用线性位移不变系统来复原图像，再很多应用中有较好的复原效果，且计算大为简化。
实际上，尽管非线性和位移可变的情况能更加准确而普遍地反映图像复原问题的本质，但在数学上求解困难，只有在要求很精确的情况下采用位移可变的模型去求解，其求解也通常以位移不变的解法为基础修改而成。

图像复原

图像复原：尽可能恢复退化图像的本来面目。沿图像退化的逆过程进行处理。

图像复原流程：

找出退化原因；
建立退化模型；
反向推演；
恢复图像；

典型的图像复原是根据图像退化的先验知识，建立退化现象的数学模型，再根据模型进行反向的推演运算，以恢复原来的景物图像。因此，图像复原的关键是知道图像退化的过程，即图像退化模型。并据此采用相反的过程求得原始图像。

图像增强和图像复原的区别：

图像增强不考虑图象是如何退化的，而是主观上试图采用各种技术来增强图像的视觉效果。因此，图像增强可以不顾增强后的图像是否失真，只要达到想要的目视效果就可以。
图像复原需要知道图像退化的机制和过程等先验知识，客观上找出一种相应的逆处理方法，从而得到复原的图像。
如果图像已退化，应先作复原处理，再作增强处理。
二者目的都是为了改善图像的质量

图像复原可以看成是图像的逆过程(如下图)：
在这里插入图片描述
逆滤波复原基本原理：

将1/H(u,v)称为逆滤波器；

噪声不存在时：
F(u,v) = G(u,v)/H(u,v)
过程为用退化函数除退化图像的傅里叶变换，得到退化前图像的傅里叶变换的估计。被称为直接逆滤波图像复原。
噪声存在时：
F^’(u,v) = F(u,v) + N(u,v)/H(u,v)
即使知道退化函数，也不能准确的复原图像，因为N(n,v)未知，更糟糕的情况是：如果退化函数是零或是非常小的值时，则N(u,v)/H(u,v)很大，很容易支配F(u,v)的估计值，会对逆滤波复原的图像产生很大的影响。
解决方法：限制滤波的频率，从频谱图可知，高频分量(噪声)的值接近0，而H(0,0)在频率域中通常是H(u,v)的最高值。因此可能缩短滤波半径，使通过的频率解决原点，减少遇到零值的概率。
逆滤波复原基本步骤：

对退化图像g作二维离散傅里叶变换，得G；
计算系统点扩散函数(即退化函数)h的二维离散傅里叶变换，得H；
逆滤波计算F = G/H；
计算F的逆傅里叶变换，得f；
实际获得的结果中有噪声，因而只能得到估计值。可将H进行调整以减少噪声对复原信号的影响。

图像几何校正

目的：在诸如数字识别，车牌识别，条形码识别，遥感影像信息提取等应用场景中，特别是基于日常便携图像采集设备的应用场景中，通常图形采集设备采集的图像，不可避免地存在运动模糊，畸变失真退化等成像问题。需要对这样的图像进行几何校正
在这里插入图片描述

几何畸变：

在实际的成像系统中，图像捕捉介质平面和物体平面之间不可避免地存在有一定地转角和倾斜角，转角对图像地影响是产生图像旋转，倾斜角的影响表现为图像发生投影变形。
或由于摄影机系统本身的原因导致的镜头畸变。
此外还有由于物体本身平面不平整导致的曲面畸变如柱形畸变等。

几何畸变可分为线性几何畸变和非线性几何畸变：
通常情况下：

线性几何畸变：缩放，平移。旋转等畸变。
非线性几何畸变：是由成像面和物平面的倾斜，物平面本身的弯曲，光学系统的像素差造成的畸变，表现为物体与实际的成像各部分比例失衡。

常见几何畸变退化问题的复原大多是：基于成像系统；
优点是一点确立成像模型，便可以快速有效地根据模型参数对图像进行几何变换，从而实现复原。同时缺点是，由于面临的图像其成像系统未知且多样化，因此，这种方法不适合于解决一般性无法预知模型的畸变退化。
另外一种方法：多项式变换技术；其实质是利用数值分析的方法求解几何变换方程。
优点是不需要预先知道成像模型，对复杂曲面畸变能够进行校正和复原。缺点是运算量较大，不适宜实时性较高系统，多多项式次数和控制点的选取要求严格。
在这里插入图片描述

图像空间坐标变换(确定校正后图像中每个像素的空间坐标)：首先建立图像像点坐标和物方对应点坐标间的映射关系，解求映射关系中的未知参数，然后根据映射关系对图像各个像素坐标进行校正。
灰度内插(确定校正影像中每个像素的灰度值)。

几何校正的坐标变换：
在这里插入图片描述

分为直接法和间接法两种：

在这里插入图片描述
灰度内插方法及其特点：

双线性内插法是利用待求点四个邻像素的灰度在两个方向上作线性内插。

第六章——图像压缩

图像压缩指的是对于图像数据进行编码存储，以减少它的存储空间为目的。本质上就是对图像源数据按一定的规则进行变换和组合，从而达到以尽可能少的代码表示尽可能多的信息。压缩通过编码来实现，或者说编码带来压缩的效果，所以，一般把此项处理称之为压缩编码。

研究背景：
信息传输方式发生了很大改变：通信方式的改变，语言+文字——>语音+文字+图像。通讯对象，人与人，人与机器，机器与机器。

图像传输与存储需要的空间：彩色视频信息，传真数据；

由于通讯方式和通信对象的改变带来的最大问题是：
传输带宽，速度，存储器容量的限制。
在这里插入图片描述
图像中的数据冗余的概念：
只要接收端不产生误解，就可以减少承载信息的数据量。
整理图像的描述方法可以达到压缩的目的。

视觉心理冗余，一些信息在一般视觉处理中比其他信息的相对重要程度要小，这种信息就被称为视觉心理冗余。

由于一幅图像存在数据冗余和主观视觉冗余，其压缩方式就是从这两方面着手开展的。

因为有数据的冗余，将图像信息的描述方式改变后，可以压缩掉这些冗余。因为有主观视觉冗余，当忽略一些视觉不太明显的微小差异，可以进行所谓的有损压缩。

压缩的必要性：
一幅模拟图像必须经过脉冲编码调制(PCM——Pulse Code Modulation)才能变成数字图像。(PCM-脉冲调制早期用于语言信号传送).
在这里插入图片描述

图像编码的目的：节省存储空间；减少传输时间；利于处理；降低处理成本。
在这里插入图片描述
图像压缩分类：
从应用角度分类：禁止图像编码，活动图像编码(针对视频)，二值图像编码。
从信息保持程度角度分类：
有损压缩，无损压缩；
从具体的编码技术角度分类：
空域法，变换域法；预测编码，变换编码，统计编码等；

图像保真度准则

保真度准则：图像品质的核心问题是逼真度问题。经过处理的图像(包括经过压缩编码后的图像)与一个标准图像之间的偏差可以作为图像逼真度(保真度)的度量。这一偏差，包括亮度，色度，分辨率以及某些心理物理学参数。(偏差应在允许的范围内)

客观保真度准则：
主管保真度准则：挑选一定数量的观察者打分。

编码压缩的性能参数：
如何度量编码方式的优劣(速度，效率，保真度)
在这里插入图片描述

在这里插入图片描述
冗余大致可分为三类：
编码冗余：符号序列，码字
像素间相关性冗余：帧间像素信息冗余，帧内像素信息冗余。
视觉冗余：人眼对所有视觉信息并不是都具有相同的敏感度；人眼的空间分辨率，时间分辨率；

统计编码方法

编码有统计编码，变换编码等；
统计编码：根据图像像素灰值出现的概率的分别特性而进行的压缩编码叫统计编码。
熵与平均码字长度：

H(d) <R(d)时，一定可以设计出某种平均码字长更短的无失真编码方法。
H(d) >R(d)的无失真编码方法不存在。
熵编码：使编码后的图像的平均码字长度尽可能接近图像的熵H。
基本思路是：概率大的灰度级用短码字，概率小的，用长码字。

统计编码的方法：

行程编码：RLE编码
基本原理：通过改变图像的描述方式，来实现压缩。将一行中颜色值相同的相邻像素用一个计数值和该颜色值来代替。
特点：适合行程较长的图像。
huffman编码(熵编码)
基本原理：为了达到更大的压缩率，提出了一个方法，就是将图像中出现频率较大的像素给一个比较短的编码，将出现频率小的像素给一个比较长的编码。

算法：哈夫曼算法。

图像压缩时的标准

预测编码与变换编码压缩：
预测编码：根据“过去”的时刻的像素值。运用一种模型，预测当前的像素值，预测编码通常不直接对信号编码，而是对预测误差进行编码。当预测比较准确，误差较小时，即可达到编码压缩的目的。
原理：对图像的一个像素的离散幅度的真实值，利用其相邻像素的相关性，预测它的下一个像素的可能值，再求两者差，对这种具有预测性质的差值，量化，编码，就可以达到压缩的目的。
在这里插入图片描述

预测编码：每行最开始的几个像素无法预测，这些像素需要用其他方式编码，这是采用预测编码所需要的额外操作；
预测系数随着不同的图像不同，但对每幅图像都计算预测系数太麻烦，也不现实，可参考前人得到的数据选择使用，在静止图像压缩的国际标准(JPEG)，对这种方法的前置点形式以及预测系数有一推荐值可供参考。
变换编码：图像数据经过正交变换之后，其变换系数具有一定的独立性，(例如，对于FT来说，频谱系数大的变换系数均集中在低频部分，而高频部分的幅值很小，因而可以对低频的变换系数数量化，编码和传输，对高频部分不处理，这样可以达到图像压缩的目的。)
在这里插入图片描述

第七章——图像分割

边缘检测

边缘：图像中像素灰度有阶跃变化或屋顶变化的那些像素的集合。常在目标与背景，目标与目标，区域与区域之间，勾画出了目标物体的轮廓，是人们能对各种目标一目了然，是进行图形分析和识别的重要基础。
图像边缘包括了丰富的信息，如边缘的方向，形状，阶跃性质；
在这里插入图片描述
具体的边缘检测算子：

梯度算子：
梯度：

为了检测边缘点，选取适当的阈值T，对梯度图像进行二值化。
特点：仅计算相邻像素的灰度值，对噪声比较敏感，无法抑制噪声的影响。
Roberts算子：
与梯度算子类似，计算方向不一致。计算45度方向两个像素的梯度值。

特点：与梯度算子检测边缘的方法类似，对噪声敏感，但效果较梯度算子略好。
Prewitt算子和Sobel算子
prewitt算子

特点：在检测边缘的同时，能抑制噪声的影响。
Sobel算子与Prewitt算子类似，只是采用了带权的计算方法。

特点：对4领域采用带权方法来计算差分，能进一步抑制噪声，但检测的边缘较宽。
Kirsch算子(方向算子)

特点：在计算边缘强度的同时可以得到边缘的方向；个方向间的夹角为45度。
Nevitia算子(方向算子)

特点：具有12个模板，各方向之间的夹角为30度而不是45度。
拉普拉斯算子

前面的边缘检测算子都是利用边缘点一阶导数的特性。

对于阶跃边缘，其二阶导数在边缘点处出现零交叉，并且边缘点处两边像素的二阶导数符号。

拉普拉斯算子利用的是边缘点的二阶导数特性。
在这里插入图片描述
特点：

各向同性，线性和位移不变
对细线和孤立点检测效果较好
对噪声的敏感，对噪声有双倍加强作用
不能检测出边的方向
常产生双像素的边缘

由于梯度算子和拉普拉斯算子都对噪声比较敏感，因此一般在用他们检测边缘前要先对图像进行平滑。

Marr算子
由于拉普拉斯算子对噪声敏感，为了减少噪声影响，可先对图像进行平滑，然后再用拉普拉斯算子检测边缘。

先用一种正态分布的高斯函数作为平滑函数对图像进行平滑。
高斯函数：在这里插入图片描述

在该算子中，Δ的选择很重要，Δ小时边缘位置精度高，但边缘细节变化多；Δ大时平滑作用大，但细节损失大；

在这里插入图片描述
可以通过判断零交叉点及其两侧像素符号的变化来确定边缘点。边缘点两侧的二阶导数是异号的。

曲面拟合法
基于差分检测图像边缘的算子往往对噪声敏感。因此对一些噪声比较严重的图像就难以取得满意的结果。若用平面或高阶曲面来拟合图像中某一小块区域的灰度表面，求这个拟合平面或曲面外法线方向的微分或二阶微分检测边缘，可减少噪声影响。
四点拟合灰度表面法

从公式可以看出
a为两行像素平均值的差分，b为两列像素平均值的差分；
特点：其过程是求平均后再求差分，因而对噪声有抑制作用。
也可以简化为用模板求卷积进行边缘检测
线的检测

通过比较典型模板的计算值，确定一个点是否在某个方向的线上。

前面的都是阶跃状边缘的检测
而图像上的线化一般属于屋顶状边缘，线化的检测也可以通过模板计算，来确定一个点是否在某个方向的线上。

下面是集中线化模板的例子：
在这里插入图片描述
我们可以通过判断R1,R2,R3,R4中的最大值是否大于某一个阈值来检测线化，并且最大值对应的方向就是线化的方向；

Hough变换检测直线

Hough变换检测直线只要是针对图像上的边缘点，找出其共线的点集及其直线方程。
在这里插入图片描述

图a中一条直线对应图b中一点；
这种线到点的变换就是霍夫变换。

在这里插入图片描述

图c中的直线系对应图d中的一正弦图像；

具体实现步骤：

在ρ，θ的极值范围内对其分别进行m，n等分，并设一个二维数组A(m,n)，用来统计焦点计数值、
对图像上所有的边缘点作Hough变换，求每个点在θ_jHough变换后的ρ，判断其与那个数组元素对应，则让该数组元素值加1.
比较数组元素值的大小，最大值所对应的ρ，θ就是这些共线点对应的直线方程的参数。

特点：

过粗则直线参数不准确，过细则计算量增加很多，因此，对ρ，θ的量化要兼顾参数数量化精度和计算量，
Hough变换检测直线的抗噪性能强，能将断开的边缘连接起来
Hough变换也可用来检测曲线。

Hough变换检测曲线

对Hough变换扩展后，可以用来检测图像中特定形状的物体，如：圆或椭圆；
在这里插入图片描述

在这里插入图片描述

具体算法步骤如下：

对将要找寻的某物边界建立一个R表，这是一个二维表，以φ的步进值求r和α；
在需要判断被测图像中有无已知某物时，也可对该某物各点在内存中建立一存储区，存储内容是累加的。把x_c，y_c从最小到最大用步表示，并作为地址，记作A存储阵列内容初始化为零；
对图像边界上每一点(x,y)，计算φ(x)，查原来的R计算(x_c , _c),
使相应的存储阵列A(x_c,y_c)加1
在阵列中找一最大值，就找出了图像中符合要找的某物体边界。

区域分割

一般来说，一幅图像中，相同区域中的像素应该具有相同或相似的属性。而不同区域的像素的属性则不同。

区域分割就是要寻找这样的就有代表性的属性，并利用这类属性进行划分。使就有相同属性的像素归属同一区域，不同属性的像素则归属不同区域

最简单的图像：只有两类区域的图像。
复杂图像：有两类以上区域的图像。

最简单图像的区域分割法：

在这里插入图片描述
g(x,y)为分割后的二值图像。
确定阈值T：

状态法：统计图像的灰度直方图，若其直方图呈双峰，且有明显的谷。将谷所对应的灰度值作为阈值，再按上面的公式进行二值化。
这种方法适合目标和背景的灰度差别比较大，且直方图有明显的谷的情况。
在应用中，有时为了便于阈值的选取，可采用灰度加权的方法产生新的直方图，得到更大的峰谷比。
判断分析法：假设最简单图像f(i,j)的灰度区域为[0 , L - 1]，选择一阈值t将图像的像素分为c1，c2两组，其中c1组像素数为w1，
显然，组内方差越小，则组内像素越相似；组间方差越大，则两组的差别越大。因此，组间方差与组内方差的比值越大，则分割效果越好。通过改变t的取值，使组间方差与组内方差的比值最大，则此时t为阈值。
最小误差分割：

复杂图像的区域分割

复杂图像分割的步骤：

自动平滑直方图：一般来说，待分析图像的灰度直方图不是很平滑，这对自动寻找峰与下一步确定阈值带来困难，因此，有必要对直方图进行平滑。一般来说，可以采用空间滤波器与直方图做卷积来进行平滑。
确定区域类数：对于灰度层次不多的图像，一个区域类通常对应直方图中的一个峰。但是，平滑后的直方图中的每一个峰不一定都对应一个区域类。因而有必要通过检查认定峰对应的区域类。
自动搜索多个阈值：可以采用前面介绍过的判断分析法，依次计算各峰两两之间的最佳阈值，然乎再用这组阈值分割原始图像。

特征空间聚类

利用特征空间聚类进行图像分割，可以看成是对阈值分割概念的推广。他将图像空间中的像素用对应的特征空间点表示，然后根据它们在特征空间的聚类情况对特征空间进行图像分割，最后将它们映射回原图像空间，得到分割的结果。

在复杂图像分割方法中，一般要求类别数已知，但实际中我们并没有这些先验知识。这是聚类分类方法就显示出了它的独特优越性。

K-均值聚类方法：
是一种迭代算法，每迭代一次，类中心就刷新一次，经过多次迭代，使类中心趋于稳定为止。
具体步骤：

任意选取k个初始均值 Z1 , Z2；
使用最小距离判别法将任一样本分给K类中的某一类；若对所有的i！=j，有x到Zi的距离小于x到Zj的距离，则x属于第i类。
根据步骤2类中的分类结果，计算各类均值，并以此作为新的类均值。
比较新旧类均值，若它们之差小于某一阈值，则认为中心已经稳定，可以终止算法，输出结果，否则返回步骤2继续进行。

与阈值分割类似，聚类方法也是一种全局的方法。比边缘检测的方法抗噪强。
一般来说K-均值算法需要预先设定类的数目。实际中，尝使用试探法来确定K。K均值算法的收敛问题一直没有得到理论证明，但在很多情况下，其分类结果并不受初始中心的影响。

区域增长

前面的基于阈值的图像分割技术，基本上都没有考虑到图像像素空间的连接性，区域增长法则正好相反，它顾及了像素之间的连接性。

基本原理：先把图像分割成若干个小区域，然后比较相邻小区域特征是否相似，若他们足够相似，则作为同一区域合并，以此将特征相似的小区域不断合并，知道不能合并位置，最后形成特征不同的区域。

区域增长根据所用的领域方式和相似性准则的不同，产生各种不同的区域扩张法。可分为：单一型(像素与像素)；质心型(像素与区域)；混合型(区域与区域)；

简单区域的生长方法：以图像的某个像素为生长点比较相邻像素的特性，将特征相似的相邻像素合并为同一个区域。以合并的像素为生长点，继续重复上面的操作，最终形成具有相似特征的像素的最大连通集合。

像素灰度为特征的简单区域增长法的具体步骤：

对图像进行光栅扫描，求出不属于人格区域的像素。当寻找不到这样的像素时结束操作。
把这个像素灰度同其4-领域或8-领域中不属于其他区域的像素进行比较，若灰度差值小于阈值，则合并到同一区域。并对合并的像素赋予标记。
从新合并的像素开始，反复进行第二步操作。
反复进行第二步，第三步操作直至不能再合并为止。
返回1的操作，寻找新区域出发点的像素。

这种方法简单，但如果区域之间的边缘灰度变化平缓或者是边缘相交于点时，有可能会产生将两个区域合并的情况。
为了克服这个缺点，在上面的步骤二中，可能不是比较相邻像素的灰度而是比较已存在区域的平均灰度，于该区域相邻接的像素的灰度值。这就是下面的质心型区域生长法。

质心型链接操作步骤类似简单区域扩张法，唯一不同的是在上述步骤二的操作中，改为比较已存在区域的像素灰度平均值与该区域邻接的像素灰度值。若差值小于阈值，则合并。缺点是，区域增长的结果与起始像素有关，起始位置不同，则分割结果有差异。

混合型区域生长：把图像分割成小区域，比较相邻的小区域的相似性，相似则合并，直到不能合并为止。

两种混合型区域增长方法：

不依赖于起始点的方法：

设灰度差的阈值为0，用简单区域扩张法把具有相同灰度的像素合并到同一区域，得到图像的初始分割图像。
从分割图像一个小区域开始，求出相邻区域间的灰度差，将差值最小的相邻区域合并。
反复进行步骤二的操作，把区域依次合并，适当阶段需停止合并，得到分割图像。

假设检验法：根据图像子块内的灰度分布的相似性进行子块合并，最终实现图像的分割。

把图像分割成互不交迭的，大小为n × m的子块。
比较相邻子块的灰度直方图相似性，相似则合并成同一区域。

下面是相似的判断标准，有两种。
在这里插入图片描述
其中H1(g)和H2(g)分别为两个相邻子块的累计直方图。

反复进行步骤二的操作，直到区域不能合并为止。

难点在于：子块大小n如何确定？
n太大会使区域形状不自然，会遗漏小的目标。
n太小会使相似性的判断标准(a)和(b)的可靠性会下降，从而导致分割质量差。
根据经验，实际应用中，n一般取5~10。

分裂合并方法

对于待分割的图像，当事先不知道其区域形状和区域数目的时候，可以采用区域分裂合并方法，该方法也无需预先指定种子点，它是按照某种一致性的准则分裂或者是合并区域。可以先进行分裂运算，然后再进行合并运算。也可以分裂和合并运算同时进行，经过连续的分裂和合并，最后得到图像的精确分割效果。分裂合并法对分割复杂的场景图像比较有效。

分裂合并法是基于四叉树的思想。把原始图像整体作为树根或零层，将图像等分成四块，作为被分裂的第一层。
对于第一层的每一个子块，如果各像素属性一致，则不再等分。
如果属性不一致，则子块须继续分裂成相等的四块，作为第二层。如此循环。

在这里插入图片描述
分裂合并操作原则：
合并：当同一层中的四块中的像素满足某一特性的均匀性时，将它们合并为一母块。
分裂：当某一层中的某一子块内像素不满足均匀条件时，将它们分裂成四个子块。
在这里的均匀性可以是灰度的均匀性，也可以是某一种纹理特征的均匀性。

分裂合并法的具体步骤：

初始分割：首先把一副图像分裂到第二层，子块数n = 16；
合并处理：按预先给定的合并的原则，对第二层的每四个子块进行检查，假定子块21，22，23，24符合合并原则，合并后标记为20；
分裂处理：当第二层中间的每一个子块内像素不满足特性均匀性条件时，将它们分裂成四个子块；
组合处理：以每一块为中心，检查与其相邻各块，凡符合特征均匀性的，再次合并。
消失小区：小区与相邻大块进行比较，按他们对邻近大块的均匀性程度分别划到大块中去。

一副图像初始分割为多少层？视图像的大小而定，另外，在消失小区时，会给区域的边缘带来一定误差，与前面讲到的一些区域分割方法相比，
算法比较复杂，同时对于复杂图像的分割效果比较好。

第八章——二值图像处理

在图形处理的研究和应用中，二值图像具有十分重要的地位，现在很多的图像处理系统，就是以二值图像的处理为主。这主要是因为二值图像处理简单，数据量小，处理速度比较快，成本也低。而且二值图像能定义几何学中的各种概念，多值图像也能转化成二值图像。

二值图像处理的基本流程如图所示
在这里插入图片描述

二值图像的连接性和距离

在二值图像的特征分析中，最基本的概念就是二值图像的连接性，也称连通性和距离。

领域和邻接的概念：对任意的像素(i,j)，把像素{(i+p,j+q)}(p,q是适当的整数)叫做像素(i,j)的领域。(前面写过)
像素的连接：在这里插入图片描述
连接成分(连通成分)：在二值图像中间，把相互连接的像素集合汇集为一组，于是具有若干个0值的像素和具有若干个1值的像素的组就产生了，

连接性有连接性矛盾在这里插入图片描述
单连接成分；多重连接成分；(判断内部有没有孔)(孤立点是单连接成分)

欧拉数：在二值图像中，1像素连接成分数C减去孔数H的值叫做这幅图像的欧拉数或者示性数。

用E来表示欧拉数   则 E = C -H

对于一个1像素连接成分，1减去这个连接成分中所包含的孔数的差值叫做这个1像素连接成分的欧拉数。

二值图像的欧拉数是所有1像素连接成分的欧拉数之和。

像素的可删除性和连接数：某二值图像上某个像素的值改变后，使整个图像的连接性并不发生改变，即各连接成分既不分离，不结合，孔也不产生，不消失，则这个像素是可删除的。

一个像素的可删除性可用像素的连接数来检查。
在这里插入图片描述
对同一图像的像素，在4或8邻接的情况下，该像素的连接数不一定相同。

像素的连接数作为二值图像局部的特征量是很有用的。

像素按连接数Nc§的大小分类：

孤立点：对于1像素p，在4/8邻接的情况下，当其4/8邻接的像素全是0时，像素p称作孤立点，其连接数N~~c~~(p) = 0.
内部点：对于1像素p，在4/8邻接的情况下，当其4/8邻接的像素全是1时，像素p称作内部点，其连接数N~~c~~(p) = 0.
边界点：在1像素中，除了孤立点和内部点以外的点；连接数1<=N~~c~~(p)<=4；当连接数为1时，该点为删除点或端点；当连接数为2时，该点位连接点；当连接数为3时，该点为分支点；；当连接数为4时，该点位交叉点；
背景点：像素值为0的所有像素；

距离：
在这里插入图片描述

连接成分的变形操作

为了从二值图像中准确地提取有关的特征，一般都需要对二值图像进行一些增强处理，这些处理通常称为二值图像连接成分的变形操作。

连接成分的标记：为了区分二值图像中的连接成分，求得连接成分个数，对属于同一个1像素连接成分的所有像素分配相同的编号，而对不同的连接成分分配不同的编号的操作。

膨胀和收缩：
膨胀：把连接成分的边界扩大一层的处理。
收缩：把连接成分的边界点去掉从而缩小一层的处理。
在这里插入图片描述
膨胀和收缩的反复使用就可清楚二值图像中的小成分或孔

膨胀和收缩是数学形态学中最基本的变换，而数学形态学的应用几乎涵盖了图像处理的所有领域。

线图形化：将给定的图形变成线图形的处理，在二值图像处理中是非常重要的。

距离变换和骨架化处理:把任意图形转换成线图形的最有效方法之一。是求二值图像中1像素到0像素的最短距离的一种处理。
在经过了距离变换得到的图像中，最大值点的集合就形成了区域P的骨架。
骨架反映了原始图形的形状。给定距离和骨架就能恢复该图形，但恢复的图像不能保证原始图形的连接性。距离变换和骨架化处理常用于图形压缩，提取图形幅宽和形状特征等。
细化：从二值图像中提取线宽为像素的中心线的操作。
从处理方法上分为顺序处理和并行处理，从连接性上分为8-邻接细化和4-邻接细化。

希尔迪奇(Hilditch)方法：8-邻接细化中一种
在这里插入图片描述
细化步骤如下：

按光栅扫描顺序研究二值图像的像素P0。当P0完全满足以下六个条件时，把P0的值置换为-1.注意，这里条件2，3，5是在并行处理方式中所用的和各像素的值。条及件是在顺序处理方式中所用的各像素的值。
对以置换成-1的像素，在不用当前处理结果的并行处理方式中，把该像素的值复原到1，而在用当前处理结果的顺序处理方式中，仍为-1。

6个条件：

P0的值必须等于1；
P0是边界像素的条件；
不删除端点的条件；
保持孤立点的条件；
保持连接性的条件；

对于像素值为 - 1的全部像素，若其像素值为0，然后反复进行步骤一的操作，直到像素值为-1的像素不存在时结束线的细化处理。这时得到宽度为1的线图形。
其他细化方法：掩模细化，内接圆细化。
细化方法不同，所得图形也会有不同。
不管是哪种细化方法，都存在着不足，例如噪声的影响等。在线图形的外围上有尖状突起的时候，如不消除它。到最后判断时将会有分支。但像这种外围上的不规则性，在被增强的形状上有时在中心线上表现出来毛刺。所以，还要考虑研究消除噪声和去毛刺的方法。
边界跟踪：为了求得区域间的连接关系，必须沿区域的边界点跟踪像素，这个过程就称之为边界跟踪或边缘跟踪。
边界跟踪的具体方法和步骤：

根据光栅扫描发现像素从0开始变为1的像素P0时，P0作为边界的起点，存储它的坐标(i,j)值。
从像素(i,j-1)开始反时针方向在像素(i,j)的8-领域里寻找1像素，当第一次出现1像素记为Pk(这里k = 1)存储P1的坐标。
同上，反时针方向从Pk-1以前的像素开始在Pk像素的8-领域内寻找1像素，把最先发现像素值为1的像素记为Pk-1。
当Pk = P0而且Pk+1 = P1时，跟踪结束，在其他情况下，把k+1重新当做k返回第三步，反复进行处理。

上述这种边缘跟踪，是在图像边缘连接明确的假设下进行的。但实际上很多图像的边缘连接并不是明显的，这时候可以采取浓淡图像直接跟踪边缘的方法。
直接跟踪浓淡图像边缘的时候，必须同时进行边缘的检出。
边缘检测的算法之一就是根据图像梯度的大小和方向跟踪边缘的像素。当边缘是直线时，这种方法就比较简单。

形状特征提取

形状分析是指对图像中的区域目标提取形状特征，进而对图像进行识别和理解。
在这里插入图片描述

区域形状特征的提取方法可以分为以下的三类：区域内部形状特征提取；区域外部形状特征提取；利用图像层次型数据结构提取形状特性；

区域内部形状特征的提取和分析：包括空间域分析和变换域分析
空间域分析是直接在图像的空间域对区域内部提取形状特征，以便于分析。具体有：

拓扑描述子：对区域的全局描述很有用；欧拉数就是拓扑特性之一，是一个较好的区域描述子，可用于目标识别。
凹凸性：连接图形内任意两个像素的线段，如果不通过这个图形以外的像素，则这个图形就是凸的。包含一个图形的最小的凸图形称为这个图形的凸闭包。凸图形的凸闭包就是它本身。从凸闭包除去原始图形后，所产生的图形的位置和形状特征分析的重要线索。

区域的测量，区域的大小及形状的表示方法，也就是区域的描述量：

面积：对于离散的二值图像来说，区域的面积就是区域内像素的总和。
周长：第一种：在区域的边界像素中，设某像素与其上下左右像素间的距离为1，与斜方向像素间的距离为1.414。周长就是这些刑诉间距离的总和。第二种：将边界的像素的总和作为周长。
圆形度：R = 4Π * 面积 / 周长平方，区域为圆形时，R 最大，R = 1。否则，R较小
直径，幅宽，占有率等

区域内部变换法：
是形状分析的经典方法，它包括求区域的各阶统计矩，投影和截口等。
在这里插入图片描述

目标形心：是一个关键性的位置参数，他的精确与否直接影响到目标定位。可用矩方法来确定。

Hu矩组：对于平移，旋转和大小尺度变化均为不变的矩组。

在图像变化是，这7个矩数值基本保持不变。

矩方法是一种经典的区域形状分析方法，但由于它的计算量大而缺少实用价值。四叉树近似的表示以及近年来发展的并行算法和超大规模集成电路的实现为矩方法向实用化方向发展提供了基础。

投影和截口是另一种区域内部的变换方法
在这里插入图片描述
所绘出的曲线都是离散波形曲线。这是，对二值图像的形状分析转化为对一维离散曲线的波形分析。

在这里插入图片描述

如果投影和截口都通过f(i,j)中的区域，那么上面的公式均是区域的形状特征。
在分析染色体图像时，着丝点(凹点)位置是一个关键特征。用投影方法可以提取着丝点的位置。

第九章——纹理分析

图像纹理指的是图像像素的一种规则性排列

纹理：最初指纤维物的外观。字典中对纹理的定义是“由紧密的交织在一起的单元组成的某种结构”。
纹理分析的原理：

提到纹理，人们自然会想到木质家具上的木纹，花布上的花纹等。木纹为自然纹理，花纹为人工纹理，它们反映了物体表面颜色与灰度的某种变化，这些变化与事物本身的属性有关。

图像的纹理分析：通过一定的图像处理技术提取出纹理特征参数，从而获得纹理的定量或定性描述的处理过程。

纹理分析的关键：首先要把纹理特征提取出来，表达出纹理的特点，然后进行纹理识别，纹理分类，三位表面重建。

特征提取是纹理分析的基础。用于纹理识别，纹理分类以及三位表面重建。

图像纹理分析的方法：统计分析法，结构分析法，频谱分析法，模型分析法；

统计分析法：主要基于图像像素灰度值的分布与相互关系，找出反映这些关系的特征。
基本原理是选择不同的统计量对纹理图像的统计特征进行提取。
统计分析中最常用的是共生矩阵法，另外，还有长行程法。其中共生矩阵(GLCM)又包括灰度共生矩阵和灰度——梯度共生矩阵。

结构分析法：分析图像纹理的结构，从中获取结构特征。
结构分析法首先把纹理看成许多纹理基元按照一定位置的规则组成，然后分两步处理如下：及提取问纹理基元和推论纹理基元位置规律。
该方法适用于规则和周期性纹理，实际中较少采用。

频谱分析法：主要基于滤波器理论。包括了傅里叶变换法，Gabor(加伯)变换法。小波变换法。
傅里叶变换法：只能完成图像的频率分解。因而获得的信息不是很充分。
Gabor变换法：Gabor函数可以捕捉到相当多的纹理信息，且具有极佳的空间/频率联合分辨率，因此在实际中获得了较为广泛的应用。
小波变换法：该方法大体分为金字塔形小波变换法和树形小波变换法。
模型分析法：有自回归模型，马尔可夫随机场模型，Gibbs随机场模型，分形模型，这些方法都是用模型系数来表征纹理图像，其关键在于首先对纹理图像的结构进行分析以选择到最合适的模型，其次为如何估计这些模型关系。
这种方法存在着计算量大，自然纹理很难用单一模型表达的缺点。
Gibbs随机场模型(GFR)：通过集团势能的概念，利用局部计算机就能获得全局的结果，因此该模型目前应用较多。
分形模型：分形是一种适合于描述具有复杂和不规则形状研究对象的数学模型。

laws纹理能量测量法

方法概述：
一阶分析方法：分析方法简单，有效。但提供的模板较少，应用收到一定的限制。
原理：laws纹理测量的基本思想是设置两个窗口：一个是微窗口，可为3×3，5×5或7×7，常取5×5用来测量以像素为中心的小区域的灰度的不规则性，以形成属性，称为微窗口滤波；另一个为宏窗口，为15×15或32×32，用来在更大的窗口上求属性的一阶统计量(常为均值和标准偏差，称为能量变换)，在进行纹理特征提取分析。
分析流程：
在这里插入图片描述

纹理分析的自相关函数法

纹理模型分析法：一个像素与其领域像素存在着某种相互关系，这种关系既可以是线性的，也可以是服从条件概率的。

常用模型：自相关模型，自回归模型，Markov随机场模型和分形模型等。

自相关模型：通常用自相关函数；
图像的纹理的一个重要性质是纹理的反复性。

自相关函数定义：在这里插入图片描述
纹理度量：利用图像纹理的自相关函数ρ随x，y大小变化的规律，可以描述图像纹理的粗糙度，规整度，粗略度等特征。

令d = pow(x² +y² ,0.5)，则ρ随d增加而下降的速度较慢；如果图像的纹理较细，则ρ随d增加而下降的速度较快；随着d的不断增加，ρ会呈现周期性变化，其周期性的大小能够反映出局部模式排列规则的稀疏，稠密程度。

适用于比较规则的纹理图像分析。

灰度共生矩阵分析法

又称为灰度空间相关矩阵，是通过研究灰度的空间相关特性来描述纹理的常用方法。(也称为联合概率矩阵)
他作为传统的图像纹理分析方法已广泛应用于数字图像处理的许多领域，尤其是利用图像纹理特征值所表征的图像空间结构信息来改善遥感图像的地学目标分类效果。

在这里插入图片描述

d，θ取不同的数值组合，可以得到不同情况下的灰度共生矩阵。
当d取值较小时，对应于变化缓慢的纹理图像(较细的纹理)，其灰度共生矩阵对角线上的数值较大。
而纹理的变化越快，则对角线上的数值越小，而对角线两侧上的元素值增大。

矩阵特点：
一副图像的灰度共生矩阵反映了图像灰度关于方向，相邻间隔，变化幅度的综合信息，是分析图像的局部特征和排列规律的基础。灰度共生矩阵并不能直接提供纹理信息，为了能描述纹理的状况，需在灰度共生矩阵的基础上再提取能综合表现灰度共生矩阵状况的纹理特征量，称为二次统计量。
为进一步描述图像纹理的特征，Haralick根据共生矩阵定义了熵，对比度，能量，相关，方差等14种用于提取图像种纹理信息的特征统计量。

矩阵优化：
一幅图像的灰度级数一般是256级，这样级数太多会导致计算灰度共生矩阵大，计算量大。为了解决这一问题，在求灰度共生矩阵之前，将图像的灰度级数压缩为16级。
在提取特征之前，需对灰度共生矩阵作正规化处理。
令(i,j) = ρ(i,j) / R R是正规化常数。
当取d = 1，φ = 0 时，每一行有2(N_x - 1)个水平像素对，因此共有2N_y(N_x - 1)水平相邻像素对，这时R = 2N_y(N_x - 1)。同样当取 d = 1，φ = 45°时，共有2(N_y-1)(N_x - 1)相邻像素对，R = 2(N_y-1)(N_x - 1)。由对称性可知，当φ = 90° 和135°时，其相邻像素对数是显然的。

纹理特征二次统计量(典型的特征)
在这里插入图片描述

在这里插入图片描述

由共生矩阵抽取的纹理特征度量是属于整个图像区域的，常用于分析或分类整个区域或整幅图像；
每一方向的灰度共生矩阵，都可以计算以上几个特征量，对于四个方向的灰度共生矩阵，每个特征都有四个不同方向的值，常取其平均值作为方向无关的特征值；
每一个统计属性都可以生成一个纹理图像或波段与光谱特征一起应用于分类，这些统计表征的优点是既能够反映分类类别空间特征的显著差异，又能与基于概率模型传统分类算法兼容。
根据不同的图像和所需要提取的地物信息选取不同的统计属性作为指标，最终达到提取地物信息的目的。

第十章——模板匹配

模板匹配是一种最原始，最基本的模式识别方法。它是研究某一个特定的对象的图案位于图像的什么地方，进而来识别对象，实际上是一个匹配的问题。

模板匹配：当对象物的图案以图像的形式表现时，根据该图案与一副图像的各部分的相似度判断其是否存在，并求得对象物在图像中位置的操作叫做模板匹配。

模板匹配的用途：

在几何变换中，检测变换的对应点；
多光谱或多时相图像间的几何配准；
在立体影像分析中提取影像间的对应关系；
运动物体的跟踪；
图像中对象物位置的检测；

基本思想：设检测对象的模板为t(x,y)，令其中心与图像f(x,y)中的一点(i,j)重合，检测t(x,y)和图像重合部分之间的相似度，对图像中所有的点都进行这样的操作，根据相似度为最大或者超过某一阈值来确定对象物是否存在，并求得对象物所在的位置。

匹配尺度：
在这里插入图片描述

当图像比较大时，计算量比较大。所以有改进；

高速模板匹配的方法：

序贯相似性检测法SSDA法
在这里插入图片描述
(2).粗精检索结合方法
首先进行粗检索，它不是让模板每次移动一个像素，而是每隔若干个像素把模板和图像重叠，并计算匹配的尺度，从而求出对象物大致存在的范围。然后，仅在这个范围内，让模板每隔一个像素移动一次，根据求出的匹配尺度确定对象物所在的位置。这样，整体上计算模板匹配的次数减少，计算时间缩短，匹配速度提高。但是用这种方法具有漏掉图像中最恰当位置的危险性。

高精度定位的模板匹配

在一般图像中有较强的自相关性。因此，进行模板匹配算法的相似度就在以对象物存在的地方为中心形成平缓的峰。
基于图案轮廓的特征匹配方法与一般的匹配相比较，表现出更尖锐的相似度的分布。可获得高精度的定位。

模式识别方法：
在这里插入图片描述
概率分类法：

基于概率统计模型得到各类别的特征向量的分布，以取得分类的方法。
特征向量分布的获得是基于一个类别已知的训练样本集。
是一种监督分类方法，分类器是概念驱动的。

聚类分析：

目标：用某种相似性度量的方法将原始数据组织成有意义的和有用的各种数据集。
是一种非监督学习的方法，解决方案是数据驱动的。

模糊模式识别：

基于模糊数学理论，利用隶属函数描述事物的不确定性。
识别根据研究对象对于某模糊子集的隶属程度采用最大隶属原则识别法，择近原则识别法，模糊聚类分析法对模式进行识别。

结构模式识别：

该方法通过考虑识别对象的个部分之间的联系来达到识别分类的目的。
识别采用结构匹配的形式，通过计算一个匹配程度值(matching score)来评估一个未知的对象或未知对象某些部分与某种典型模式的关系如何。
当成功地制定出了一组可以描述对象部分之间关系的规则后，可以应用一种特殊的结构模式识别方法 - 句法模式识别，来检查一个模式基元的序列是否遵守某种规则，及句法规则或语法。

人工神经网络方法：

神经网络是受人脑组织的生理学启发而创立的。
由一系列互相联系的，相同的单元(神经元)组成。相互间的联系可以在不同的神经元之间传递增强或抑制信号。
增强或抑制是通过调整神经元相互间联系的权重系数来实现。
神经网络可以实现监督学习和非监督学习条件下的分类。

模式识别系统的基本组成：
在这里插入图片描述

图像识别概述

图像识别：利用计算机对图像进行处理，分析和理解，以识别各种不同模式的目标和对象的技术。

图像识别发展经历阶段：文字识别；数字图像处理与识别；物体识别；

数字图像处理和识别的研究开始于1965年。数字图下昂与模拟图像相比具有存储，传输方便可压缩，传输过程中不易失真，处理方便等巨大优势，这些都为图像识别技术的发展提供了强大的动力。
物体的识别主要指的是对三维世界的客体及环境的感知和认识，属于高级的计算机视觉范畴。它是以数字图像处理与识别为基础的结合人工智能，系统学等学科的研究方向，其研究成果被广泛应用在各种工业及探测机器人上。
图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前，在图像识别的发展中，主要有四种识别方法：统计模式识别，结构模式识别，模糊模式识别，人工神经网络方法。

模式：存在于时间，空间中可观察的事物，具有时间或空间分布的信息。
广义上说，存在与时间个空间中可观察的物体，如果我们可以区别它们是否相同或是是否相似，都可以称之为模式。
模式所指的不是事物本身，而是从事物获得的信息，因此，模式往往表现具有时间和空间分布的信息。

模式的直观特性：可观察性，可区分性，相似性；

模式识别：用计算机实现人对各种事物或现象的分析，描述，判断，识别。