关注公众号,发现CV技术之美
视觉系统是通过观测世界获得图像,进而实现视觉功能的系统。人的视觉系统包括眼睛、神经网络、大脑皮层等。随着科技的进步,由计算机和电子设备构成的人造视觉系统越来越多,它们试图实现并改善人的视觉系统。人造视觉系统主要将数字图像作为系统的输入。
视觉系统流程
从功能来看,2D视觉系统需要能够采集客观场景的图像,对图像进行加工(预处理),改善图像质量,再将其中对应感兴趣物体的图像目标提取出来,并通过对目标的分析获取客观物体的有用信息。2D视觉系统流程如图1所示。
图1 2D视觉系统流程
图像技术层次
为完成视觉系统的功能,需要利用一系列技术。计算机视觉技术经过多年发展已有很大进展,种类很多。对于这些技术,已有一些分类方法,但目前看来还不太稳定和一致。例如,研究者均将计算机视觉技术分成3层,但结果并不统一。有的将其分为低层视觉、中层视觉、3D视觉,有的将其分为早期视觉(其中又分为两部分:仅一幅图像、多幅图像)、中层视觉、高层视觉(其中又分为两部分:几何方法、概率和推论方法)。
相对来说,图像技术的分类方法在近20多年来一直比较一致。该方法将各种图像技术都集合在图像工程学科(一门系统研究各种图像理论、技术和应用的交叉学科)之下。图像工程可分为图像处理、图像分析和图像理解三个层次,如图2所示,每个层次各有特点。
图2 图像工程层次示意
图像处理(IP)着重强调在图像之间进行的变换。虽然人们常用图像处理泛指各种图像技术,但比较狭义的图像处理主要指对图像进行各种加工以改善图像的视觉效果,并为自动识别打基础,或对图像进行压缩编码以减少所需的存储空间或传输时间,从而满足给定传输通路的需求。
图像分析(IA)主要是对图像中感兴趣的目标进行检测和测量,以获得它们的客观信息,从而建立对图像的描述。如果说图像处理是一个从图像到图像的过程,则图像分析是一个从图像到数据的过程。这里数据可以是对目标特征进行测量的结果,也可以是基于测量的符号表示,它们描述了图像中目标的特点和性质。
图像理解(IU)的重点是在图像分析的基础上,进一步研究图像中各目标的性质和它们之间的联系,并得出对图像内容的理解及对原来客观场景的解释。如果说图像分析主要以观察者为中心研究客观世界(主要研究可直接观察到的事物),那么图像理解在一定程度上以客观世界为中心,并借助知识、经验等来把握和解释整个客观世界(包括不能直接观察到的事物)。
综上所述,图像处理、图像分析和图像理解在抽象程度和数据量上各有特点,操作对象和语义层次各不相同,其相互联系可参考图1-10。图像处理是比较低层的操作,它主要在图像的像素层次上进行处理,处理的数据量非常大;图像分析则进入了中层,通过图像分割和特征提取,把原来对图像中像素的描述转换成比较简洁的对图像中目标的描述;图像理解是高层操作,操作对象基本上是从描述中抽象出来的符号,其处理过程和方法与人类的思维推理有许多相似之处。另外,由图1-10可知,随着抽象性的提高,数据量是逐渐减少的。具体说来,原始图像数据在经过一系列的处理过程后,逐步转化得更有组织并被更抽象地表达。在这个过程中,语义被不断引入,操作对象发生变化,数据量得到压缩。另外,高层操作对低层操作有指导作用,能提高低层操作的效能。
在图像工程的三个层次中,图像处理和图像分析是图像理解的基础,对二者的研究相较于图像理解更加成熟,目前应用得也比较广泛。
图像技术分类
在图像工程的三个层次中,每个层次又包括若干个技术类别(共16个类别),如表所示。
图像处理、图像分析和图像理解中的图像技术
层 次 | 图像技术 |
图像处理 | 图像获取(各种成像方法,图像采集、表达及存储,以及摄像机标定等) |
图像重建(从投影等重建图像、间接成像等) | |
图像增强/图像恢复(变换、滤波、复原、修补、置换、校正、视觉质量评价等) | |
图像/视频压缩编码(算法研究、相关国际标准实现及改进等) | |
图像信息安全(数字水印、信息隐藏、图像认证取证等) | |
图像多分辨率处理(超分辨率重建、图像分解和插值、分辨率转换等) | |
图像分析 | 图像分割和基元检测(边缘、角点、控制点、感兴趣点检测等) |
目标表达、目标描述、特征测量(二值图像形态分析等) | |
目标特性提取分析(颜色、纹理、形状、空间、结构、运动、显著性、属性等的提取分析) | |
目标检测和目标识别(目标2D定位、追踪、提取、鉴别和分类等) | |
人体生物特征提取和验证(人体、人脸和器官等的检测、定位与识别等) | |
图像理解 | 图像匹配和融合(序列、立体图像的配准、镶嵌等) |
场景恢复(3D物体表达、建模、重构或重建等) | |
图像感知和解释(语义描述、场景模型、机器学习、认知推理等) | |
基于内容的图像/视频检索(相应的标注、分类等) | |
时空技术(高维运动分析、目标3D姿态检测、时空跟踪,以及举止判断和行为理解等) |
《2D计算机视觉:原理、算法及应用》
结构框架和主要内容
本书选取了一些相关技术进行介绍。图像处理技术基本对应早期视觉或低层视觉,图像分析技术主要与中层视觉相关。
本书的结构框架和主要内容如图3所示。从客观场景出发到最后提取出物体信息,共分为4个模块(实线框):图像采集、图像处理(或图像预处理)、目标提取、目标分析,分别包含不同的技术(虚线框),括号中的数字对应本书的章次。附录A介绍的二值数学形态学作为一种工具可以应用于不同模块的不同技术(如箭头所示);附录B介绍的视觉恒常性主要与图像处理模块相关(如箭头所示)。
图3 本书的结构框架和主要内容
本书的主要内容可划分在如图3所示的四个单元中(如点线框所示)。第一个单元包括第2章,主要介绍了初步的图像采集表达技术;第二个单元包括第3~6章,主要介绍基本的图像处理技术;第三个单元包括第7~9章,主要介绍从图像处理到图像分析的转换技术;第四个单元包括第10~13章,主要介绍扩展的图像分析技术。
各章概况
本书共有13章和2个附录。
第1章解释了一些基本术语,给出了多种图像示例,概括了图像技术的总体情况,并具体介绍了图像的表示和显示方法及图像存储和文件格式,还提出了本书的使用建议。
第2章介绍图像采集方法,包括几何成像模型和亮度成像模型,以及为图像数字化而进行的采样和量化,这些都是获取数字图像的关键。另外,还讨论了图像中像素间的关系。
第3章介绍空域图像增强方法,涉及的内容包括对图像进行算术运算和逻辑运算的技术、灰度映射技术,以及基于直方图的图像增强方法和利用像素邻域的空域滤波方法。
第4章介绍频域图像增强方法,在概述傅里叶变换的基础上,具体介绍了多种低通、高通、带阻和带通滤波器,并结合亮度成像模型分析了同态滤波器的原理。
第5章介绍图像恢复方法,分析了图像退化示例,对基本的无约束恢复和有约束恢复技术进行了讨论,介绍了对几何失真进行校正的方法,并概述了图像修补技术。
第6章介绍彩色视觉和彩色图像增强方法,在讨论彩色视觉基础及基于物理的和基于感知的彩色模型的基础上,给出了一些典型的伪彩色增强和真彩色增强方法。
第7章介绍基本的图像分割方法,先对相关的定义、方法、分类等进行讨论,然后具体介绍了微分边缘检测、主动轮廓模型、阈值分割、基于过渡区的阈值选取及区域生长技术。
第8章介绍图像中的基元检测方法,讨论了几种兴趣点的检测方法,以椭圆为例分析了目标检测的思路,还介绍了可检测多种基元的哈夫变换并推广到广义哈夫变换。
第9章介绍目标表达的基本方法,包括对轮廓的链码表达、投影标志和多边形近似,以及目标的层次表达、围绕区域和骨架表达。
第10章介绍目标的描述技术,除了一些轮廓基本描述参数和区域基本描述参数,还讨论了轮廓的傅里叶描述和小波描述、基于区域不变矩的描述及对目标关系的描述。
第11章介绍目标表面纹理的描述方法,分别对基于统计理论、结构模型和频谱函数的三类纹理研究方法中的一些典型技术进行了讨论。
第12章介绍目标形状的描述,具体讨论了四类形状特性描述符,包括形状紧凑性描述符、形状复杂性描述符、基于离散曲率的描述符、拓扑结构描述符。
第13章介绍目标模式的分类问题,先以交叉比为例介绍了特征不变量,然后讨论了几种典型的统计模式分类器,最后分析了支持向量机的原理和特点。
附录A介绍二值数学形态学,在回顾基本集合定义的基础上,依次介绍了二值数学形态学基本运算、二值数学形态学组合运算和二值数学形态学实用算法。
附录B介绍视觉恒常性,这是知觉恒常性的一种。在对视网膜皮层理论进行介绍的基础上,还举例描述了视觉恒常性在图像增强中的两个应用。
各章均附有“各节要点和进一步参考”,一方面归纳各节的中心内容,另一方面介绍可深入学习的参考文献。除附录外,各章均有一定数量的自我检测题(均附有提示和答案)。
先修基础
从学习图像处理和分析技术的角度来说,以下三个方面的基础知识是比较重要的。
(1)数学知识。值得指出的是线性代数,因为图像可表示为点阵,需要借助矩阵来表达和解释各种加工运算过程;另外,统计和概率的知识也很有用。
(2)计算机科学知识。值得指出的是计算机软硬件技术,因为对图像的加工需要使用计算机,一般通过编程利用一定的算法在给定的平台上完成。
(3)电子学知识。值得指出的有两个,一个是信号处理,因为图像可看作1D信号的扩展,图像处理是信号处理的扩展;另一个是电路原理,因为最终要实现对图像的快速加工,常常需要使用一定的电子设备和器件(包括特殊的硬件)。
本书是以计算机视觉入门图书的定位来编写的,主要目标是介绍2D计算机视觉(对应图像处理和分析)的基本原理、典型方法和应用技术,一方面,可使读者能据此解决实际应用中的具体问题;另一方面,可为读者进一步学习和研究3D计算机视觉(更接近图像理解)打下基础。
互动赠书
在本文下方留言区推荐一篇近期所读论文以及简述推荐理由,如:
论文:(Prototype-supervised Adversarial Network for Targeted Attack of Deep Hashing可换)
地址:https://arxiv.org/abs/2105.07553
将由CV君选取5位小伙伴(走心且要对别人有价值),赠送《2D计算机视觉:原理、算法及应用》一书。
活动截止时间:2022.7.4-9:00