文章目录
图像基础知识
一、数字图像
1.1 数字图像概念
(1)数字图像概念
数字图像,又称数码图像,一幅二维图像可以由一个二维数组或矩阵表示。数字图像可以理解为一个二维函数f(x, y),其中 x 和 y 是坐标位置,而f(x, y)的值表示图像在该点处的强度或灰度。
(2)数字图像处理的目的:
- 改善图示的信息以便人们解释;
- 为存储、传输和表示而对图像进行的处理;
1.2 数字图像应用
(1)传统领域
- 医学、空间应用、生物学、军事
(2)最新领域
- 数码相机(DC)、数码摄像机(DV)
- 指纹识别、人脸识别,虹膜识别
- 互联网、视频、多媒体等
- 基于内容的图像检索、视频检索、多媒体检索
- 水印、游戏、电影特技、虚拟现实、电子商务等
(3)图像处理、机器视觉、人工智能关系
- 图像处理主要研究二维图像,处理一个图像或一组图像之间的相互转换的过程,包括图像滤波,图像识别,图像分割等问题。
- 计算机视觉主要研究映射到单幅或多幅图像上的三维场景,从图像中提取抽象的语义信息,实现图像理解是计算机视觉的终极目标。
- 人工智能在计算机视觉上的目标就是解决像素值与语义之间的关系,主要的研究问题包括图片检测,图片识别,图片分割和图片检索。
1.3 OpenCV介绍
- OpenCV于1999年由Intel建立;
- 开源发行的跨平台计算机视觉库;
- 操作系统:Linux、Windows、Android、Mac OS;
- 构成:C函数和少量C++类;
- 接口:Python、Java、MATLAB等语言
- opencv是数字图像处理和计算机视觉领域最常见的工具包,是学习,科研,企业项目开发的好帮手。
- 安装:pip install contrib-python
二、图像属性
2.1 图像格式
- BMP格式
Windows系统下的标准位图格式,未经过压缩,一般图像文件会比较大。在很多软件中被广泛使用。 - JPEG格式
也是应用最广泛的图片格式之一,它采用一种特殊的有损压缩算法,达到较大的压缩比(2:1甚至40:1),互联网上最广泛使用的格式 - PNG格式
与JPG格式类似,压缩比高于GIF,支持Alpha通道调节图像的透明度。 - GIF格式
不仅可以是一张静止的图片,也可以是动画,并且支持透明背景图像,适用于多种操作系统,“体型”很小,网上很多小动画都是GIF格式。但是其色域不太广,只支持256种颜色。 - TIFF格式
它的特点是图像格式复杂、贮存信息多,在Mac中广泛使用,非常有利于原稿的复制。很多地方将TIFF格式用于印刷。
2.2 图像尺寸
(1)图像尺寸
- 图像尺寸的长度与宽度都是以像素为单位的。
(2)像素(Pixel)
- 像素是数码影像最基本的单位,每个像素就是一个小点,而不同颜色的点聚集起来就变成了一幅动人的照片。
- 灰度图像点数值范围在0到255之间,0表示黑、255表示白,其它值表示处于黑白之间;
- 彩色图用红、绿、蓝三通道的二维矩阵来表示。每个数值也是在0到255之间,0表示相应的基色,而255则代表相应的基色在该像素中取得最大值。
2.3 图像的一些基本属性
(1)像素
像素是分辨率的单位。像素是构成位图图像最基本的单元,每个像素都有自己的颜色。
(2)分辨率
单位长度中所表达或截取的像素数目。每英寸图像内的像素点数,单位是像素每英寸(PPI,Pixel Per Inch)。 图像分辨率越高,像素点密度越高,图像越清晰。
注意:生活中常被混用,或者说错误的用做衡量图像内的像素点数量。
(3)灰度
表示图像像素敏感程度的数值,也就是黑白图像中点的颜色深度。范围一般在0~255。白色为255,黑色为0.
(4)通道
图像的位深度,是指描述图像中每个pixel数值所占的二进制位数。位深度越大则图像能表示的颜色数就越多,色彩越丰富逼真。
- 8位,单通道图像,一个像素点只需要一个数值表示,只能表示灰度,灰度值范围 2 8 = 256 2^8=256 28=256
- 24位:3通道,3*8=24。RGB模式,把图像分为红绿蓝三个通道,可以表示彩色。
- 32位:四通道,RGBA模式,在RGB基础上加上alpha通道,表示透明度,alpha=0表示全透明。
(5)对比度
指不同颜色之间的差别。对比度=最大灰度值/最小灰度值
(6)频率
灰度值变化剧烈程度的指标,是灰度在平面空间上的梯度。
(7)幅值
幅值是在一个周期内,交流电瞬时出现的最大绝对值,也是一个正弦波,波峰到波谷的一半。
(8)取样和量化
图像数字化过程由图像的取样与量化来完成。
- 取样:要用多少点来描述一幅图像,取样结果质量的高低就是用图像的分辨率来衡量的。
- 量化:是指要使用多大范围的数值来表示图像采样后的一个点。
- 数字化坐标值称为取样,数字化幅度值称为量化。
(9)上采样和下采样
-
缩小图像
或称为下采样(subsampled)或降采样(downsampled)
目的:a.使图像符合显示区域的大小;b.生成对应图像的缩略图。
原理:(M/s)*(N/s),其中M,N分别为横向的像素数(列数),纵向的像素数(行数),s为M,N的公约数。 -
放大图像
或称为上采样(upsampling)或图像插值(interpolating)
目的:放大原图像,从而可以显示在更高分辨率的显示设备上。
原理:内插值。
2.4 图像直方图
(1)图像直方图
图像的灰度直方图是灰度级的函数,描述了图像中灰度分布情况,能够很直观地展示出图像中各个灰度级的像素的个数。其中,横坐标是灰度级,纵坐标是该灰度级出现的个数。横坐标的左侧为纯黑、较暗的区域,而右侧为较亮、纯白的区域。
(2)性质:
- 直方图反映了图像中灰度分布规律,描述每个灰度级具有的像素个数,但不包含这些像素在图像中的位置信息。图像直方图不关心像素所处的空间位置,因此不受图像旋转和平移变化,可以作为图像的特征。
- 任何一幅特定的图像都有唯一的直方图与之对应,但不同的图像可以由相同的直方图。
- 如果一幅图像有两个不相连的区域组成,并且每个区域的直方图已知,则整幅图像的直方图是该两个区域的直方图之和。
(3)意义:
- 直方图是图像中像素强度分布的图形表达方式。
- 它统计了每个强度值所具有的像素个数
- CV领域常借助图像直方图来实现图像的二值化。
2.5 颜色空间
(1)概念:
颜色空间也称彩色模型(又称彩色空间或彩色系统),它的用途是在某些标准下通常可接受的方式对彩色加以说明。
(2)常见的颜色空间:
RGB、HSV、HSI、CMKY
- RGB颜色空间
主要用于计算机图形学中,依据人眼识别的颜色创建,图像中每一个像素都具有R、G、B三个颜色分量组成,这三个分量大小均为[0,255]。通常表示某个颜色的时候写成一个3维向量的形式(100, 120, 150)。
颜色模型:
* 原点对应的颜色为黑色,它的三个分量值都为0;
* 距离原点最远的顶点对应的颜色为白色,三个分量值都为1;
* 从黑色到白色的灰度值分布在这两个点的连线上,该虚线称为灰度线。
* 立方体的其余各点对应不同的颜色,即三原色红、绿、蓝及其混合色黄、品红、青色;
- HSV颜色空间
HSV(Hue,Saturation,Value)是根据颜色的直观特性由A.R.Smith在1978年创建的一种颜色空间,这个模型中颜色的参数分别是:色调(H)、饱和度(S)、明度(V)。
颜色模型:
* H通道:Hue,色调/色彩,这个通道代表颜色;
* S通道:Saturation,饱和度,取值范围0%~100%,值越大,颜色越饱和。
* V通道:Value,明暗,数值越高,越明亮,0%(黑)到100%(白)。
- HSI颜色空间
HSI模型是美国色彩学家孟塞尔(H.A.Munseu)于1915年提出的,它反映了人的视觉系统感知彩色的方式,以色调、饱和度和强度三种基本特征量来感知颜色。
模型优点:
* 在处理彩色图像时,可仅对I分量进行处理,结果不改变原图像中的彩色种类。
* HSI模型完全反映了人感知颜色的基本属性,与人感知颜色的结果一一对应。
- CMYK颜色空间概念
CMYK(Cyan,Magenta,Yellow,black)颜色空间应用于印刷工业,印刷业通过青(C )、品红(M)、黄(Y)三原色油墨不同网点面积率的叠印来表现丰富多彩的颜色和阶调,这便是三原色的CMYK颜色空间。
思考
为什么很多图像识别将彩色图像灰度化?
首先,要想明白,灰度化之后失去了什么,又得到了什么。
- 灰度化之后颜色信息丢失,所以很多基于color-base的算法就不可能这么做,比如分辨红绿灯。
- 但是很多简单的识别算法对于颜色依赖性不强,hand-craft特征更多关注边缘信息。灰度化之后矩阵维数下降,运算速度大幅度提高,并且梯度信息仍然保留。
- 工程中很多应用加上color信息之后鲁棒性会下降。
这一篇主要是讲了一些概念上的东西,下一篇将主要讲解OpenCV一些常用函数。