《图像语义分析》学习笔记 (二)

第二章 图像表示与特征提取

图像表示与特征提取是图像语义分析的前提与基础。图像表示与特征提取将图像的信息转换成计算机能够识别与处理的数据形式。

一、图像结构

1. 图像信息在计算机中的表示和存储的方式称为图像表示。图像表示是分析图像结构的基础,计算图像表示的特征是理解图像内容的重要手段。 

2. 图像特征是对图像中某些结构视觉特征的描述。

几种图像结构:

(1)点结构

图像中最基本的结构是像素,一定数量的像素集合才能表达真正的图像语义。点特征主要指图像中的明显点,如对象的角点、圆点等,在图像匹配和遥感影像定位中非常有用。用于点特征提取的算子称为有利算子或兴趣算子,常见的有 Moravec 算子、Hannah 算子与 Foistner 算子等。

简单介绍Moravec 算子的基本思想:以像素的四个主要方向上的最小灰度方差表示该像元与邻近像元的灰度变化情况,即像素的兴趣值,然后在图像的局部选择具有最大兴趣值的点(灰度变化明显的点)作为特征点。

(2)线结构

在复杂的图像中,线结构主要是图像中的边缘。边缘检测可以抽取边缘轮廓信息,并且可用于区域分割,边缘检测和区域分割具有互补性。边缘并不完全等同于物体的边界,边缘主要是指图像中像素值突变的地方。

边缘检测的常用算子:

a. Robert 算子。边缘定位准,但是对噪声敏感,适用于边缘明显且噪声较少的图像分割。Robert 边缘检测算子是一种利用局部差分算子寻找边缘的算子,利用 Robert 算子对图像处理后边缘不是很平滑。Robert 算子通常会在图像边缘附件的区域内产生较宽的响应,所以采用 Robert 算子检测的边缘图像需要进行细化处理,边缘定位的精度不是很高。

b. Prewitt 算子。对噪声有抑制作用,抑制噪声的原理是像素平均,但是像素平均相当于对图像的低通滤波,因而 Prewitt 算子对边缘的定位准确度不如 Robert 算子高。

c. Sobel 算子。Sobel 算子和 Prewitt 算子都是计算加权平均的,但是 Sobel 算子考虑了邻域的像素对当前像素产生的影响不相同的因素,距离不同的像素应该具有不同的权值,对算子结果产生的影响也不应该相同的情况。一般来说,距离越远则产生的影响越小。Sobel 算子有两个:一个是检测水平边缘的;另一个是检测垂直边缘的

d. Isotrotic Sobel 算子。加权平均算子,权值反比与邻点与中心点的距离,当沿不同方向检测边缘时梯度幅度一致,就是通常所说的各向同性,各向同性 Sobel 算子与普通的 Sobel 算子相比,它的位置加权系数更为准确,在检测不同方向的边缘时梯度的幅度一致。

e. Laplacian 算子。二阶微分算子,具有各向同性,即与坐标轴方向无关,经坐标旋转后梯度结果不变。但是 Laplacian 算子对噪声比较敏感,所以图像一般先经过平滑处理。由于平滑处理也是用模板进行的,所以通常的分割算法都是把 Laplacian 算子和平滑算子结合起来生成一个新的模板。Laplacian 算子不能检测边缘的方向实际应用中一般使用高斯拉普拉斯算子(Laplacizan of Gaussian, LoG)抵消由 Laplacian 算子引起的逐渐增加的噪声影响。

f. canny 算子。把边缘检测问题转换为检测单位函数极大值的问题。在高斯噪声中,一个典型的边缘代表强度的阶跃变化。canny 算子的边缘检测可以分为三个步骤:1. 高斯平滑函数,目的是平滑以消除噪声;2. 一阶差分卷积模板,目的是边缘增强;3. 保留梯度方向上的最大值,抑制非极大值。

边缘检测需要利用算子对每一个检测点进行独立计算,计算结果与以前检测点的检测结果无关。与边缘检测不同的线检测,在处理图像点时需要利用前面的处理结果,因而也成为序贯检测或跟踪检测。其在检测的过程中不必对每一个点进行相同精度的计算,只需先对图像上的每一点进行简单计算,然后使用更复杂的计算来延伸此边缘或此曲线。用于线检测的算法有多种,如光栅跟踪,全向跟踪和 Hough 变换等。光栅跟踪用于一般曲线的检测,全向跟踪主要用于对工程图纸中的标准曲线的检测。

(3)深层结构

深层结构为带有较强语义的图像区域,基于深层结构的图像特征与高层语义概念之间有着较强的联系。要提取图像的深层结构,需要借助图像的分割模型。

按照分割过程中是否有用户参与,可以将语义对象分割方法分为非监督对象和监督/交互式对象分割。非监督对象分割技术的研究相对成熟,但是由于缺少先验知识的支撑,往往难以准确分割出用户所需的语义对象。而交互式对象分割引入了用户的参与,通过用户画线或画框获取关于语义对象的先验信息,利用先验信息监督分割过程,通常能获得较高质量的分割结果。

3. 图像特征

分析图像结构的关键在于图像的特征提取,描述和分析。对于图像的特征,没有通用和准确的定义。特征的定义往往是由具体问题或者应用决定。特征提取最重要的一个特性是可重复性,即同一场景中的不同图像所提取的特征应该是相同的。

一般图像特征可以分为四类:直观性特征,变换系数特征,统计直方图特征,代数特征。

直观性特征主要指几何特征,几何特征比较稳定,受对象的形态变化与光照条件等因素的影响小,但不易抽取,而且测量精度不高,与所采用的处理技术密切相关。

变换系数特征指先对图像进行傅里叶变换、小波变换等,得到系数后作为特征进行识别。

统计直方图特征,直方图描述了图像中灰度值的分布情况。彩色图像的直方图一般使用颜色分量分开计算或者将其转化为灰度图计算得到。通过对直方图进行均衡化处理(实际上改变了图像中灰度值的映射关系),可以提高图像的对比度。

代数特征是基于统计学习方法抽取的特征,代数特征具有较高的识别精度。代数特征抽取方法可以分为线性投影特征抽取法和非线性特征抽取法。线性投影分析法的主要缺点是需要对大量的已有样本进行学习,且对定位、光照与物体非线性形变敏感,因而采集条件对识别性能影响较大;

 二、语义表示

1. 图像表示模型

实际图像模型一般有三个主要的组成部分:变换(去相关和简化数据)、量化(降低转换数据的相关性)和重组(组合数据来把大值分组到一起)。从图像中提取语义信息,设计图像语义表述模型。目前,最简单的语义特征表示方法是利用文字描述,一幅图像所包含的语义用一系列的关键词来表征。用关键词可以表示不同语义层次结构,即语义具有不同粒度,而雪山、湖泊、草地等关键词的粒度较前者细。

对于图像低层视觉特征表述,大多采用颜色、形状、纹理和位置特征。

在图像分类模型和优化算法方面,研究者才用了高斯混合模型、支持向量机、K均值、贝叶斯信念网络、多维隐马尔科夫模型等。采用最大似然学习、基因规划算法等进行模型优化。

PLSA 是一种新的基于概率的潜在语义分析算法。其基本原理是通过奇异值分解,将文本投影到低维潜在的语义空间中,便可有效地缩小问题的规模。

2. 稀疏表示 

稀疏表示又称为稀疏编码,最初起源于神经科学。

三、视觉认知模型

1. Serre 模型

Serre 模型,是根据仿生学原理而提出的一种图像特征提取方法,利用一组方向、大小、尺度可变的局部边缘检测器(Gabor 滤波器)与图像进行卷积,得到一组响应,再将其通过特定方式组合,得到一幅图像的特征向量。 

2. Mutch 模型

Mutch模型,模拟视皮层中腹侧视觉通路的 “快速识别” 模式建立的三维金字塔模型,其中包含五层,除了第一层原始图像,各层都是通过对前一层的输出改变模板匹配或采用最大化联合操作获得的。该模型与 Serre 模型类似,但是在某些方面进行了一些改进。大致原理如下:原始图像层将所有图像转化为灰度图,并在宽高比不变的情况下将宽度缩放 140 像素。接下来创建一个具有 10 个尺度的图像金字塔,每一层都比上层小 2^(1/4)像素。

3. Karklin 模型

Karklin 模型,是基于图像协方差矩阵的视觉认知模型。该模型不是对最适合的视觉刺激做出应答,而是对合乎统计分布的所有刺激作出应答,因而能给视觉认知上相似的图像赋予相似的表征,同时又将不同类型的图像区分开。模型中的神经元能近似地的模拟初级视觉皮层复杂细胞的行为,一组这样的神经元能模拟更高级视觉皮层区域的行为。该模型的一个重要优点是能够从自然图像特征的统计结构中学习到更为概括的东西,而不是像以往的研究那样只给有限数量的刺激参数指定不变值。

Karklin 模型对图像的协方差矩阵分布进行估计,引入一组参数对图像进行编码,通过将图像块从像素空间映射到隐含变量空间,实现对具有不同视觉特征图像块的理解和识别。

四、 图像特征提取

图像特征提取可理解为与图像语义分析相关的信息。图像特征提取用于寻找图像中最紧凑、最有价值的特征子集,该特征子集可以提高图像语义分析的效率,改善图像语义分析的结果。图像特征提取方法与图像的类型相关。根据图像特征的特点,当前图像特征提取方法可分为点特征提取、线特征提取和面特征提取。

1. 图像视觉特征

(1)颜色特征

 颜色特征可以简化场景中的目标识别复杂度,在图像语义分析中具有重要的作用。与其他视觉特征相比,颜色特征对图像本身的尺寸、方向和视角的依赖较小,从而具有较轻的鲁棒性,是一种应用最广泛的视觉特征。高效、鲁棒的颜色特征可以增强图像语义分析的效果。常用的颜色表示模型有 RGB模型、HSI 模型和 Lab 模型。

RGB 指光普中的三基色:红、绿、蓝。任何颜色均可由三基色线性组合生成。RGB 颜色模型空间为一个立方体,通常将 RGB 颜色立方体归一化为单位立方体,R,G,B 三值限制在区间 [ 0, 1 ] 内。

RGB 模型不适用于人眼对颜色的解释,HSI 模型是从人眼视觉感知的角度建立的颜色模型。HSI 模型中,H 表示色调,与主要光波长有关; S 表示饱和度,主要指色调的纯度即一种颜色中混合白光的数量,I 表示强度,对应颜色的亮度,与图像的色彩信息无关。

Lab 模型是一种与设备无关的颜色模型,其可以表示人眼感知到的所有色彩。Lab 模型中颜色和亮度分开表示,L 代表亮度,a 和 b 代表颜色。a 表示的颜色范围为红色到绿色,b 表示的范围为黄色到蓝色。

(2)纹理特征

纹理是图像语义分析中应用最广泛的一种视觉特征。纹理可定义为视场范围内的灰度分布模型。纹理是物体表面的固有特征,由许多相互接近、相互交织的元素构成。纹理包括的物体表面组织结构排列的重要信息和他们与周围环境的关系。纹理是图像的区域特征,对单个像素的纹理进行分析是没有意义的。图像纹理可采用统计方法描述,该方法包括基于共生矩阵的纹理特征描述符和基于能量的纹理特征描述符。

(3)形状特征

形状是物体或图像由外部的面或线条组合而呈现的外表。图像中的一个目标的形状可以理解为图像中由目标边界上的点组成的模式。图像语义分析任务要求形状特征对目标具有位移、旋转和尺度变换的不变性。形状特征可以分为全局几何特征与变换域几何特征。

全局几何特征包括外观比、周长、面积、形状因子。偏心率、曲率等。

外观比用于描述塑性变形后目标的形状(细长程度),目标围盒(最小包围长方形)长和宽的比值。

形状因子(F)描述区域的紧凑性,它的计算公式为:

F = \frac{\left \| C \right \|^{2}}{4\pi S},其中 C 为目标区域的周长,S 为目标区域的面积。当连续的目标区域为圆形时,F 为 1,其它形状时 F 大于 1,当目标形状为圆形时,F 取最小值。形状因子对尺度变换与旋转均不敏感,是一个非矢量数值。

偏心率又称为伸长度,是区域主轴与次轴的比率。偏心率具有较强的区分不同宽度目标的能力。偏心率易受物体的形状和噪声的影响,长而窄的物体和短而粗的物体的偏心率差别很大。

曲率描述了物体边界上各点沿边界方向的变化情况,是从物体的轮廓中提取出的描述物体形状的重要线索。

变换域与几何特征主要包括傅里叶描述子和小波描述子。傅里叶描述子通常用于描述闭合边界,傅里叶描述子的优点在于具有成熟的理论指导,简单而且易实现。缺点在于它无法描述物体的局部信息,容易受到噪声的影响。

2. 常用图像特征提取方法

图像特征提取的结果是把图像上的点分成不同的子集,这些子集通常是孤立的点、连续的曲线或者连续的区域。孤立点的检测也就是角点检测,连续曲线的检测就是对图像中目标区域的外表形状和轮廓特性的提取,连续区域的检测就是对图像上具有灰度相关性(像素具有某一相似属性,如灰度值、纹理等)的像素集合的提取。

(1)点检测特征

角点通常被认为是二维图像中亮度变化剧烈的点或图像边缘曲线上曲率极大值的点。这些点保留了图像图形的重要特征,同时有效地减少了信息的数据量和图像处理时的运算量角点的检测方法有很多,不同的方法检测出的角点具有空间不变性、旋转不变性等多种重要的特性。

a. 基于梯度的角点检测

基于梯度的角点检测通过计算边缘的曲率来判断角点是否存在。角点计算数值的大小不仅与边缘强度有关,而且与边缘方向的变化率有关。具体方法如下:

I(x,y) 为二维灰度曲面,记 I_{x} = \partial I/\partial x, I_{y} = \partial I/\partial y 为一阶灰度图像,记 I_{x}_{x} = \partial ^{2}I/\partial ^{2}x, I_{y}_{y} = \partial ^{2}I/\partial ^{2}y, I_{x}_{y} = \partial ^{2}I/\partial x\partial y 为二阶灰度图像,在像素点(x,y)(x,y) 处的梯度方向是 \theta (x,y),并且有 tan\theta =I_{y}/I_{x},则角点的度量值定义为 

\Delta =(I_{x}_{x}I_{y}^{2}-2I_{x}_{y}I_{x}I_{y}+I_{y}_{y}I_{x}^{2})/(I_{x}^{2}+I_{y}^{2})。该检测方法在梯度幅值与曲率相乘之前会采用梯度幅值的非最大值抑制过程。这使得局部最大值会孤立一些角点。由于噪声会使曲率幅度产生较大波动,该检测方法对噪声比较敏感。同时由于计算的舍入,该方法对角点的定位不够准确,尤其是在边缘模糊的位置。因此,该方法检测出的角点并不十分合理。

b. Harris 角点检测

Harris 角点检测不依赖于目标形状等其他局部特征,而是利用角点本身的特点直接提取角点 。它对旋转、尺度、光照变化和噪声有不变的特性。Harris 角点检测是在 Moravec 算法的基础上改进而来的,Moravec 算法考虑图像中的一个局部窗口,通过计算在多个方向上微小地平移局部窗口导致的图像亮度的平均改变来检测角点,当任意的平移导致的最小亮度改变大于某个给定的阈值时,角点就被确认。

Harris 角点检测算法需要指定阈值,当响应函数的值大于指定阈值时才能确定角点的存在。Harris 角点检测适用于角点数目较多且光源较复杂的情况,它对图像序列的角点检测效果很好。

c. SUSAN 角点检测

SUSAN 算法的一个明显的优点是对局部噪声不敏感,抗噪能力强。在每个像素点的位置处放置一个圆形掩模,掩模的中心像素点成为掩模的核,掩模内部的每一个像素的亮度与核的亮度作比较,可以定义一个区域,在区域内的像素点与核具有相同或相似的亮度,掩模内这样的区域称为核心值相似区域(USAN区域),使用非极大值抑制(局部极大值搜索)检测 USAN 局部极小值的角点。此外,SUSAN 算法一般不适合序列图像的角点跟踪,它更适合单幅图像下的角点检测。

d. Trajkovic & Hedley 角点检测

Trajkovic & Hedley 角点检测算法是一种类似于 SUSAN 算法的快速角点检测算法。它定义一个响应函数,在不同的 USAN 区域下判别候选点是否是一个角点。主要检测过程是首次对输入图像的低解析度图像计算每个像素点位置的参数值 R,如果此值大于给定的阈值,则令该点作为角点候选点,否则直接排除该点是角点的可能性,并将映射图像对应为设为 0 。继续对输入图像的全解析度图像计算角点候选点重复上述操作。对于剩下的候选点,使用插值近似的方法(线性插值或圆周近似插值)计算参数值 R,若此值大于给定阈值,则将映射图像的对应位置设置为 R,否则设置为0。

e. FAST (features from accelerated segment test)角点检测

FAST 角点检测法是对 SUSAN 算法的简化,适用于实时的角点检测。

除了这些经典的方法,还有很多其他方法,如基于滤波的 DoG 和 LoG 检测方法等。SIFT特征的兴趣点检测就是采用的 DoG 方法,还比如一些尺度仿射不变的角点检测方法,这些是基于 Harris 和 Laplacian 的兴趣点检测方法。

(2)线特征检测

线特征是图像的一维特征,描述图像中目标区域的外表特征和轮廓特性。外表轮廓的线特征可较好地用于形状特性较为明显的目标类别的表达。目前较为流行的线特征包括:轮廓边缘特征;K 邻近片段特征。轮廓边缘特征主要用于目标检测、目标识别和图像匹配等问题。K 邻近片段特征主要用于目标检测、目标定位和形状匹配。

(3)区域特征检测

区域特征是图像上具有灰度强相关性的像素的合集。区域你饿的像素具有某一个相关属性(如灰度值、纹理等)。区域特征明显区别于周围像素的特征,包含比点特征和线特征更丰富的信息。

五、图像特征表示 

图像特征表示主要有直方图表示、区域特征表示、边缘特征表示、基于包的表示与机器自主学习的特征表示等。

1. 直方图 

直方图又称为柱状图,是对随机变量概率分布的描述,是数据分布的一种图形表示。图像语义分析中主要是用颜色直方图与方向直方图

(1)颜色直方图

颜色直方图时图像中的颜色分布表示,适用于任意颜色空间。颜色直方图对垂直于图像的轴具有平移、旋转不变性,并且仅随着其他轴旋转、物体遮挡和物体距离改变缓慢变化。构建颜色直方图首先需要对于给定的颜色空间(如 RGB 颜色空间)。将该空间中的颜色离散化表示,然后统计落入指定颜色间隔的像素个数。颜色直方图主要用于目标识别。在颜色直方图上发展起来的累加颜色直方图,可应用于彩色图像匹配。标准颜色直方图没有考虑不同块之间颜色的相似性和同一块内颜色的不一致性,因此对光强度变化与量化误差比较敏感。而模糊颜色直方图,借助模糊集隶属函数考虑与每个像素的颜色相关联的所有直方图的颜色相似性。

(2)方向直方图

方向直方图主要应用于目标检测等图像语义分析任务。梯度方向直方图描述子可用于静态图像中的行人检测。梯度方向直方图的基本思想是即使没有准确的梯度或边缘位置信息,一幅图像局部对象的外观和形状也可以由局部强度梯度的分布或边缘方向较好的描述。压缩的梯度方向直方图,即将梯度方向直方图表示成一个树形结构,压缩后的梯度方向直方图具有低复杂度并且在匹配阶段具有明显的速度提升。

2. 区域特征

(1)SIFT 特征

图像匹配的核心在于将同一物体在不同光照、不同分辨率。不同位置、不同角度下所获取的图像对应起来。传统的匹配算法通常使用角点或边缘特征,其匹配效果易受图像成像环境的影响,匹配结果的鲁棒性较差。再基于不变量技术的特征检测方法的基础上提出的 SIFT 特征提取算法,近年来不断得到完善。

SIFT 特征具有尺度与旋转不变性,并且对关照变化、放射变换和三维投影变换具有一定的鲁棒性,可有效地应用于不同图像间的目标匹配。SIFT 特征具有很高的判别性,对于包括 SIFT 描述子在内的多种局部描述子的不变性的对比实验,结果显示 SIFT 特征的效果最好。SIFT 特征的提取可分为四步:尺度空间极值点检测、关键点确定、关键点方向确定、关键点描述子生成。 

 

 

 

 

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
图像语义分割是指对图像中的每个像素进行语义信息标注的任务。它广泛应用于自动驾驶、肝癌检测等领域。语义分割的难点主要来自物体层次、类别层次和背景层次。这意味着语义分割任务需要在复杂多变的背景下正确标记出语义信息,并区分具有高度相似外观的不同类别物体。\[1\] 在图像语义分割中,有传统方法和基于神经网络的方法。传统方法包括显式特征方法、基于概率图模型的方法和无监督学习方法。而基于神经网络的方法则隐式地建立了像素到语义的映射,不需要后期人工参与即可完成整个分割过程。\[2\] 深度学习模型在图像语义分割中起到关键作用。其中,全卷积网络(FCN)是语义分割深度学习模型的开山之作,它建立了一种用于图像语义分割的通用模型框架。FCN通过有效推理和学习,可以输入任意尺寸的图像,并生成相应尺寸的输出,实现像素到像素的映射。此外,FCN还提出了多项参数用于衡量模型的性能表现,如像素正确率、平均像素正确率、平均交叠率和平均加权交叠率。\[3\] 除了FCN,还有其他深度学习模型如PNPNet,它通过空间池模块和空间场景解析网络,利用不同区域的上下文聚合全局上下文信息的能力,为像素级预测任务提供了优越的框架。\[3\] 总之,深度学习模型在图像语义分割中发挥着重要作用,通过训练和优化参数,可以实现对图像中每个像素的语义信息标注。 #### 引用[.reference_title] - *1* *2* *3* [【论文阅读笔记图像语义分割深度学习模型综述(张新明等)](https://blog.csdn.net/box0115/article/details/113395028)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值