冈萨雷斯数字图像处理1

第一章 绪论 

 

 

1.界定图像处理的范围

图像处理——图像分析——计算机视觉

低级处理:输入输出都是图像,如去噪、锐化、增强等,这一部分完全属于图像处理;

中级处理:输入为图像,输出是该图像的一些特征,如边缘提取,分割等,其目的是使图像更适合计算机处理及识别。——属于图像处理与图像分析的重叠部分。

高级处理:对被识别物体的总体理解——完全属于图像分析

2.数字图像处理的基本步骤:

 

第二章 数字图像基础

2.1视觉感知要素

 

 

人眼的感光细胞分为杆状体和锥状体,其中锥状体更灵敏且能感觉到彩色,主要分布在中央凹上

 

 

 与整个可视范围相比,人眼在同一时间所能分辨的光强等级是很小的,这样可以使局部的灵敏度提高。这个原理很像是显微镜,视野大时分辨力低,视野小时分辨力高;

如下图所示,假设人眼当前的亮度适应级是Ba,则Bb一下的亮度等级都会被人眼视为黑色。

 

韦伯比:低照明级别下,亮度分辨力较差(韦伯比高);照明亮度增大时,亮度分辨力得到改善(韦伯比降低);这主要是由于在较亮的环境下锥状体起主要作用;

 

人眼所感觉的亮度绝不是一个简单的强度函数,一下两个图可以说明:

1.恒定亮度条带在交界处出现“毛边”——马赫带;

 

 

 

 

 

 

 

 

 

 

  

 

2.三个中央小正方形的强度相同,但感觉亮度明显不同;

 

 

 

 

 

 2.4.5 放大和收缩图像 

 

 

最近邻域内插法和双线性内插法

转自(http://hi.baidu.com/%C8%CE%D0%D4%C9%FA%BB%EE/blog/item/be866c08eccc5d2d6a60fb30.html

图像的缩放很好理解,就是像的放大和缩小。传统的绘画工具中,有一种叫做“放大尺”的绘画工具,画家常用它来放大图画。当然,在计算机上,我们不再需要用放大尺去放大或缩小图像了,把这个工作交给程序来完成就可以了。下面就来讲讲计算机怎么来放大缩小图象;在本文中,我们所说的图像都是指点阵图,也就是用一个像素矩阵来描述图像的方法,对于另一种图像:用函数来描述图像的矢量图,不在本文讨论之列。
越是简单的模型越适合用来举例子,我们就举个简单的图像:3X3 的256级灰度图,也就是高为3个象素,宽也是3个象素的图像,每个象素的取值可以是 0-255,代表该像素的亮度,255代表最亮,也就是白色,0代表最暗,即黑色。假如图像的象素矩阵如下图所示(这个原始图把它叫做源图,Source):
234     38     22
67      44     12
89      65     63
这个矩阵中,元素坐标(x,y)是这样确定的,x从左到右,从0开始,y从上到下,也是从零开始,这是图象处理中最常用的坐标系,就是这样一个坐标:
---------------------
X
|
|
|
|

|
∨Y
如果想把这副图放大为 4X4大小的图像,那么该怎么做呢?那么第一步肯定想到的是先把4X4的矩阵先画出来再说,好了矩阵画出来了,如下所示,当然,矩阵的每个像素都是未知数,等待着我们去填充(这个将要被填充的图的叫做目标图,Destination):

?         ?         ?        ?
?         ?         ?        ?
?         ?         ?        ?
?         ?         ?        ?

然后要往这个空的矩阵里面填值了,要填的值从哪里来来呢?是从源图中来,好,先填写目标图最左上角的象素,坐标为(0,0),那么该坐标对应源图中的坐标可以由如下公式得出:
                                      
srcX=dstX* (srcWidth/dstWidth) ;

srcY = dstY * (srcHeight/dstHeight) ;
好了,套用公式,就可以找到对应的原图的坐标了
(0*(3/4),0*(3/4))=>(0*0.75,0*0.75)=>(0,0),

找到了源图的对应坐标,就可以把源图中坐标为(0,0)处的234象素值填进去目标图的(0,0)这个位置了。
接下来,如法炮制,寻找目标图中坐标为(1,0)的象素对应源图中的坐标,套用公式
:
(1*0.75,0*0.75)=>(0.75,0)
结果发现,得到的坐标里面竟然有小数,这可怎么办?计算机里的图像可是数字图像,象素就是最小单位了,象素的坐标都是整数,从来没有小数坐标。这时候采用的一种策略就是采用四舍五入的方法(也可以采用直接舍掉小数位的方法),把非整数坐标转换成整数,好,那么按照四舍五入的方法就得到坐标(1,0),完整的运算过程就是这样的:

(1*0.75,0*0.75)=>(0.75,0)=>(1,0)
那么就可以再填一个象素到目标矩阵中了,同样是把源图中坐标为(1,0)处的像素值38填入目标图中的坐标。

依次填完每个象素,一幅放大后的图像就诞生了,像素矩阵如下所示:
234      38      22      22  
67       44      12      12  

89       65      63      63  
这种放大图像的方法叫做最临近插值算法,这是一种最基本、最简单的图像缩放算法,效果也是最不好的,放大后的图像有很严重的马赛克,缩小后的图像有很严重的失真;效果不好的根源就是其简单的最临近插值方法引入了严重的图像失真,比如,当由目标图的坐标反推得到的源图的的坐标是一个浮点数的时候,采用了四舍五入的方法,直接采用了和这个浮点数最接近的象素的值,这种方法是很不科学的,当推得坐标值为 0.75的时候,不应该就简单的取为1,既然是0.75,比1要小0.25 ,比0要大0.75 ,那么目标象素值其实应该根据这个源图中虚拟的点四周的四个真实的点来按照一定的规律计算出来的,这样才能达到更好的缩放效果。双线型内插值算法就是一种比较好的图像缩放算法,它充分的利用了源图中虚拟点四周的四个真实存在的像素值来共同决定目标图中的一个像素值,因此缩放效果比简单的最邻近插值要好很多。

 
双线性内插值算法描述如下
:
对于一个目的像素,设置坐标通过反向变换得到的浮点坐标为(i+u,j+v) (其中i、j均为浮点坐标的整数部分,u、v为浮点坐标的小数部分,是取值[0,1)区间的浮点数),则这个像素得值 f(i+u,j+v) 可由原图像中坐标为 (i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)所对应的周围四个像素的值决定,即:


f(i+u,j+v) = (1-u)(1-v)f(i,j) + (1-u)vf(i,j+1) + u(1-v)f(i+1,j) + uvf(i+1,j+1)  --------------公式
1

其中f(i,j)表示源图像(i,j)处的的像素值,以此类推。


比如,象刚才的例子,现在假如目标图的象素坐标为(1,1),那么反推得到的对应于源图的坐标是(0.75 , 0.75), 这其实只是一个概念上的虚拟象素,实际在源图中并不存在这样一个象素,那么目标图的象素(1,1)的取值不能够由这个虚拟象素来决定,而只能由源图的这四个象素共同决定:(0,0)(0,1)(1,0)(1,1),而由于(0.75,0.75)离(1,1)要更近一些,那么(1,1)所起的决定作用更大一些,这从公式1中的系数uv=0.75×0.75就可以体现出来,而(0.75,0.75)离(0,0)最远,所以(0,0)所起的决定作用就要小一些,公式中系数为(1-u)(1-v)=0.25×0.25也体现出了这一特点;

 

 

总结:

还存在这更多临点内插的方法,多应用于医学图像处理方面,但这意味着计算量的增大。

从原理上说,选取的临点越多,图像越平滑。

在一般场合,双线性内插足矣。

 

 

 

 

 2.5像素的一些基本关系

 

 

 1.像素邻域的概念

像素邻域是图像处理的一个基本定义,意义重大

通常,像素邻域分为以下几种:

4邻域:与某个像素直接相邻的四个像素N4(p);

对角相邻:ND(p)

8邻域:4邻域+4个对角相邻像素N8(P);

 

2.连通性:满足某个相邻条件且灰度值满足特定的相似性准则(例如在二值化图像中相邻且像素值都为1的像素是连通的)

二值化的连通性是一个特例,因为它只包含两个像素值,它的邻接灰度集V只能被定义为0或1(当然也可以both,但没什么意义,天下大同了....)。

对于包含多个灰度等级的图像,如常见的0~255灰度等级,我们可以把邻接灰度集V定义为像素集0~255的任意子集,这样满足某种邻接条件且像素值在V中的两个像素就可以定义为邻接的,只是一个更具有普遍意义的定义。

因此,我们就有了下面几种常见的邻接方式:

      a.4邻接:不多说了,相信大家都能理解

      b.8邻接:同上

      c.m邻接(也叫混合邻接):这里稍微有一点绕,冈萨雷斯给出的定义是:若1.q在p的4邻域中或2.q在p的对角邻域中且p、q这两个像素4邻域的交集不含V值,满足这两个条件之一,且具有V值的像素p、q是m邻接的。

下面我们上图来帮助理解:

 

 m邻接的定义的目的之一是为了消除8邻接的二义性,例如b图中正上面的那个像素点,既可以理解为4邻接,又可以理解为8邻接。

另外一个重要的目的就是保证通路的唯一性(通路就是建立在邻接的定义上,一个像素点到另一个像素点所走的路线),在图b中从中心到右上角的通路不唯一,而图c中是唯一的。

 

连通集的概念:

S是图像的一子集,p、q是S的任意两点,如果pq的通路完全被S包含,我们说pq在S上是连通的;

对S上任意一点p,S中连通到它的像素集叫做S的一个连通分量。

如果S仅含有一个连通分量,则称S为连通集

 

 

边界和边缘 

 

 

边界是满足这样的条件的像素点的集合,它本身是连通集R上的点,但它的邻域中有一个或多个不再R上,即边界(boundary);它还有一个补充定义,若连通集R是整幅图像,那么它的边界就是该图像的最边上的一圈像素。

边缘(edge)是基于像素值不连续而产生的概念,它的确定基于一定的阈值标准,尽管二者有时是相同的(二值化图像就是一个特例),但它们完全是两个不同的概念。

目前,我们可以暂时把边界看作是封闭的通路,而把边缘看作是强度不连续的点。

 

 

距离度量

 

 假设两个像素坐标分别为(x,y),(s,t)

它们之间的距离度量有一下几种形式:

1.欧式距离:同解析几何中的定义一样,在这样的定义下,距(x,y)等距离的点形成一个圆的轮廓(近似的)

2.D4距离(也叫城市街区距离,想象一下城市街区之间没有斜边可以走):定义为|x-s|+|y-t|,在这样的定义下,距(x,y)等距离的点形成一个菱形

3.D8距离(棋盘距离):其定义为max(|x-s|,|y-t|),在这种定义下,距(x,y)等距离的点形成一个正方形

这里需要注意的是,D4距离和D8距离与通路无关,它们只和坐标相关,但若考虑Dm距离,它就与通路相关了,在进一步想,它依赖与通路及其邻点的像素值。

读者可以考虑下面几种情况左下角与右上角的D4,D8,Dm距离:

0 0 1      0 1 1

0 1 0      0 1 0

1 0 0      1 0 0

(1)       (2)

 

 

线性操作和非线性操作 

 

 

线性操作的定义是:

H(af+bg)=aH(f)+bH(g)

线性操作在图像处理中特别重要且便于理解。非线性操作虽然有时也能取得很好的效果,但其结果是不可预测的,且不好理解。

 

 

 

 









  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值