图像识别初步

模式识别之图像识别笔记

图像识别技术的定义为利用计算机对图像进行处理、分析和理解,以识别不同模式的目标和对象的技术。

图像识别系统可以分为三个部分:

 

 

1、图像处理

(1) 基本概念

① 定义:把输入图像转化为计算机能够接受处理的信号,再进行图像恢复、增强等预处理操作

② 目的:为之后的图像特征做准备

(2) 主要方法

① 图像的数字化:对图像进行抽样和量化,得到一个二维矩阵,矩阵的每一个元素即为一个像素,元素的值为该像素的灰度值fx,y

② 图像的频域、时域变换:经典变换方法有fourier变换和小波变换等

③ 图像增强和恢复:由于图像在传输和变换过程中会受到多种因素干扰,会使图像降质,因此需要对图像进行增强、恢复操作。

常用方法有:

灰度变换(把图像灰度值fx,y)经过一个变换函数T{·}变换成新的图像函数gx,y),将灰度动态范围扩大,提高图像对比度);

直方图变换(直方图均衡化,使像素灰度值动态范围最大,增强图像对比度;直方图规定化,根据需求修改直方图,可以突出图像中感兴趣的灰度范围,比如黑白二值化)

频域滤波操作,突出图像中的某一种频率成分(图像的低通部分一般为大面积的背景和变化慢的部分,而高通部分一般为图像边缘、噪声部分。通过低通滤波可以实现图像平滑处理,高通滤波可以实现图像锐化处理(理想滤波器、梯形滤波器、巴特沃斯滤波器))

 

2、特征提取

(1) 特征概念:图像特征是指图像场的原始属性。有些是视觉自然感受的自然特征,比如:图像区域亮度、边缘轮廓、纹理色彩等;有些是通过变换测量得到的人为特征,比如:变换频谱、直方图、矩等。

(2) 常用方法简介:

将图像特征分为面特征、线特征、局部区域特征、点特征和不变点特征。选取几个常用特征提取算法进行介绍:

① 图像金字塔(面特征):图像金字塔化是图像多尺度的表现形式。两个步骤:图像经过低通滤波器进行平滑操作;不断对平滑图像进行抽样,从而得到一系列尺寸缩小、分辨率降低的图像。

② 边缘检测(线特征):基本思路是先检测图像中边缘点,再按照某种策略将边缘点连接成轮廓,从而构成分割区域。常用方法有:梯度边缘算子(梯度模值大小和方向可以反映边缘的强度和趋势信息);二阶微分算子(图像在边缘处的阶跃性会导致图像二阶微分在边缘处出现零值)

③ 斑点特征检测(局部区域特征):高斯拉普拉斯算子,对图像进行卷积运算,求取相似性

④ SIFT尺度不变特征提取(不变点特征):该算法可以处理两幅图像之间发生平移、旋转、尺度变化、光照变化等问题下的特征比配匹配问题。过程可以描述为:生成高斯差分高斯金字塔(DOG),构建不同分辨率下的尺度空间》》空间极值点的检测,将每一个像素点与其所有相邻点比较,看其是否比它的图像域和尺度空间的相邻点大或者小》》稳定关键点的精确定位》》稳定关键点方向信息分配(由于极值点在不同尺度空间下,计算以关键点为中心的领域内所有点的梯度方向,将梯度方向归一化到36个方向内,生成梯度方向直方图,选取最大值代表方向作为主方向||还有辅方向)》》关键点描述(关键点周围像素区域分块,计算块内梯度直方图,生成一种独特的向量作为该区域图像的抽象表述)》》特征点匹配,即计算两组图像关键点的欧氏距离,当距离小于门限值判定匹配成功。

 

3、模式识别

模式识别是利用计算机根据样本的特征对样本进行分类。

样本特征通过上述方法得到后在进行优化,而分类需要通过图像样本进行训练,学习得到分类类别。将被识别图像的特征经过判别函数运算后,来确定被识别图像属于哪一类。分类器的设计可以等于判别函数的设计。

(1) 传统分类器(X为输入图像,为模式类别) 

 

① 最小距离分类器:给出模式类别对应的参考向量,判别公式为X的欧氏距离。X与哪个参考向量距离最近就属于哪一类

② 贝叶斯分类器:判别函数为贝叶斯公式。极大值检出。

(2) 神经网络分类器

神经网络分类器的第一级与传统分类器相同,也是计算匹配度,然后平行的输送给第二级,第二集中每个分类均有一个输出,并表现为只有一个输出强度为“高”,其余输出均为“低”。

另外,神经网络还具有一个特点。分类器的输出结果可以反馈给第一级,对第一级算法的权重进行修正。

 

4、基于深度学习的图像识别 

 

(图源李宏毅机器学习PPT

(1) 发展

神经网络有大量参数,虽然多维参数有利于图像的描述,但是也常常出现过拟合问题。由于神经网络被提出之初训练样本数量少,计算机计算能力有限,训练一个网络需要时间过长,因此最初神经网络并没有体现出很大的优势,更多的学者采用支持向量机SVM、最近邻等分类器,这些分类器采用的是手工设计的特征,例如上文提到的SIFTDoG等。

深度学习的突破是在2012年,欣顿的研究小组提出AlexNet网络,首次将深度学习运用到图像分类领域,并且赢得了ImageNet图像分类比赛的冠军,且准确率远超第二名10%左右。这引起了深度学习热潮。

此后,谷歌的GoogleNet和微软的ResNet相继提出,不断推动着深度神经网络性能的提高。

(2)优势

① 传统图像识别采用手工设计特征,依靠设计者的先验知识,且耗时长;深度学习采用的特征是从大数据中自动学习得到,可以包含大量的参数,且速度快。

② 早期的浅层神经网络模型,提供的只是局部表达,在表达相同分类函数时,需要更多的参数和训练样本。而深度学习通过重复利用中间层的计算单元,可以有效减少参数。以人脸识别为例:最底层学习刻画局部的边缘和纹理特征,中间层将各种边缘滤波器进行组合,描述不同类型人脸器官,最高层描述是整个人脸的全局特征。

 

 


  • 5
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值