(1)图像视觉技术基础

本文详细介绍了图像识别技术的基础知识,包括其原理、发展阶段、应用领域,以及机器学习、深度学习在其中的作用。着重探讨了神经网络和非线性降维技术在图像识别中的应用,展示了技术的最新进展和未来潜力。
摘要由CSDN通过智能技术生成

像识别技术是一种利用计算机视觉技术,对图像进行分析和理解的方法。图像识别的目标是使计算机能够自动识别和理解图像中的对象、场景和特征,是应用深度学习算法的一种实践应用。在本章的内容中,将详细讲解图像识别技术的基础知识,为读者步入本书后面知识的学习打下基础。

1.1  图像识别概述

当我们看到一个东西,大脑会迅速判断是不是见过这个东西或者类似的东西。这个过程有点儿像搜索,我们把看到的东西和记忆中相同或相类的东西进行匹配,从而识别它。用机器进行图像识别的原理也是类似的,通过分类并提取重要特征而排除多余的信息来识别图像。机器的图像识别和人类的图像识别原理相近,过程也大同小异。只是技术的进步让机器不但能像人类一样认花认草认物认人,还开始拥有超越人类的识别能力。

1.1.1  什么是图像识别?

图像识别是人工智能的一个重要领域,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术,并对质量不佳的图像进行一系列的增强与重建技术手段,从而有效改善图像质量。

我们本书所讲解的图像识别并不是用人类肉眼的识别,而是借助计算机技术进行识别。虽然人类的识别能力很强大,但是对于高速发展的社会,人类自身识别能力已经满足不了我们的需求,于是就产生了基于计算机的图像识别技术。这就像人类研究生物细胞,完全靠肉眼观察细胞是不现实的,这样自然就产生了显微镜等用于精确观测的仪器。通常一个领域有固有技术无法解决的需求时,就会产生相应的新技术。图像识别技术也是如此,此技术的产生就是为了让计算机代替人类去处理大量的物理信息,解决人类无法识别或者识别率特别低的信息。

随着计算机及信息技术的迅速发展,图像识别技术的应用逐渐扩大到诸多领域,尤其是在面部及指纹识别、卫星云图识别及临床医疗诊断等多个领域日益发挥着重要作用。日常生活中,图像识别技术的应用也十分普遍,比如车牌捕捉、商品条码识别及手写识别等。随着该技术的逐渐发展并不断完善,未来将具有更加广泛的应用领域。

1.1.2  图像识别的发展阶段

图像识别的发展经历了三个阶段,分别是文字识别、数字图像处理与识别和物体识别,具体说明如下:

  1. 文字识别的研究是从 1950年开始的,一般是识别字母、数字和符号,从印刷文字识别到手写文字识别,应用非常广泛。
  2. 数字图像处理和识别的研究开始于1965年。数字图像与模拟图像相比具有存储,传输方便可压缩、传输过程中不易失真、处理方便等巨大优势,这些都为图像识别技术的发展提供了强大的动力。
  3. 物体的识别主要指的是对三维世界的客体及环境的感知和认识,属于高级的计算机视觉范畴。它是以数字图像处理与识别为基础的结合人工智能、系统学等学科的研究方向,其研究成果被广泛应用在各种工业及探测机器人上。

1.1.3  图像识别的应用

移动互联网、智能手机以及社交网络的发展带来了海量图片信息,不受地域和语言限制的图片逐渐取代了繁琐而微妙的文字,成为了传词达意的主要媒介。但伴随着图片成为互联网中的主要信息载体,很多难题也随之出现。当信息由文字记载时,我们可以通过关键词搜索轻易找到所需内容并进行任意编辑。但是当信息是由图片记载时,我们无法对图片中的内容进行检索,从而影响了从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式,却降低了我们的信息检索效率。在这个环境下,计算机的图像识别技术就显得尤为重要。

(1)初级应用

在现实应用中,图像识别的初级应用主要是娱乐化、工具化,在这个阶段用户主要是借助图像识别技术来满足某些娱乐化需求。例如,百度魔图的“大咖配”功能可以帮助用户找到与其长相最匹配的明星,百度的图片搜索可以找到相似的图片;Facebook研发了根据相片进行人脸匹配的DeepFace;国内专注于图像识别的创业公司旷视科技成立了VisionHacker游戏工作室,借助图形识别技术研发移动端的体感游戏。

在图像识别的初级应用中还有一个非常重要的细分领域——OCR(Optical Character Recognition,光学字符识别),是指光学设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,就是计算机对文字的阅读。借助OCR技术,可以将这些文字和信息提取出来。在这方面,国内产品包括百度的涂书笔记和百度翻译等;而谷歌借助经过DistBelief 训练的大型分布式神经网络,对于Google 街景图库的上千万门牌号的识别率超过90%,每天可识别百万门牌号。

(2)图像识别的高级应用

图像识别的高级应用主要是指成为拥有视觉的机器,当机器真正具有了视觉之后,它们完全有可能代替我们去完成这些行动。目前的图像识别应用就像是盲人的导盲犬,在盲人行动时为其指引方向;而未来的图像识别技术将会同其他人工智能技术融合在一起成为盲人的全职管家,不需要盲人进行任何行动,而是由这个管家帮助其完成所有事情。

举个例子,如果图像识别是一个工具,就如同我们在驾驶汽车时佩戴谷歌眼镜,它将外部信息进行分析后传递给我们,我们再依据这些信息做出行驶决策;而如果将图像识别利用在机器视觉和人工智能上,这就如同谷歌的无人驾驶汽车,机器不仅可以对外部信息进行获取和分析,还全权负责所有的行驶活动,让我们得到完全解放。

1.2  图像识别的步骤

概括来说,图像识别的过程主要包括如下4个步骤:

(1)获取信息:主要是指将声音和光等信息通过传感器向电信号转换,也就是对识别对象的基本信息进行获取,并将其向计算机可识别的信息转换。

(2)信息预处理:主要是指采用去噪、变换及平滑等操作对图像进行处理,基于此使图像的重要特点提高。

(3)抽取及选择特征:主要是指在模式识别中,抽取及选择图像特征,概括而言就是识别图像具有种类多样的特点,如采用一定方式分离,就要识别图像的特征,获取特征也被称为特征抽取;在特征抽取中所得到的特征也许对此次识别并不都是有用的,这个时候就要提取有用的特征,这就是特征的选择。特征抽取和选择在图像识别过程中是非常关键的技术之一,所以对这一步的理解是图像识别的重点。

(4)设计分类器及分类决策:其中设计分类器就是根据训练对识别规则进行制定,基于此识别规则能够得到特征的主要种类,进而使图像识别的不断提高辨识率,此后再通过识别特殊特征,最终实现对图像的评价和确认。

在使用计算机进行图像识别的应用中,计算机首先就能够完成图像分类并选出重要信息,排除冗余信息,根据这一分类计算机就能够结合自身记忆存储结合相关要求进行图像的识别,这一过程本身与人脑识别图像并不存在着本质差别。对于图像识别技术来说,其本身提取出的图像特征直接关系着图像识别能否取得较为满意的结果。

值得大家注意的是,归根结底,毕竟计算机不同于人类的大脑,所以计算机提取出来的图像特征存在着不稳定性,这种不稳定性往往会影响图像识别的效率与准确性。在这个时候,在图像识别中引入AI技术就变得十分重要了。

1.3  图像识别技术

计算机的图像识别技术就是模拟人类的图像识别过程,在图像识别的过程中进行模式识别是必不可少的。在本节的内容中,将详细讲解现实中主流的图像识别技术。

1.3.1  AI(人工智能)

人工智能就是我们平常所说的AI,全称是Artificial Intelligence。人工智能是研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。

人工智能不是一个非常庞大的概念,单从字面上理解,应该理解为人类创造的智能。那么什么是智能呢?如果人类创造了一个机器人,这个机器人能有像人类一样甚至超过人类的推理、知识、学习、感知处理等这些能力,那么就可以将这个机器人称为是一个有智能的物体,也就是人工智能。

现在通常将人工智能分为弱人工智能和强人工智能,我们看到电影里的一些人工智能大部分都是强人工智能,他们能像人类一样思考如何处理问题,甚至能在一定程度上做出比人类更好的决定,他们能自适应周围的环境,解决一些程序中没有遇到的突发事件,具备这些能力的就是强人工智能。但是在目前的现实世界中,大部分人工智能只是实现了弱人工智能,这能够让机器具备观察和感知的能力,在经过一定的训练后能计算一些人类不能计算的事情,但是它并没有自适应能力,也就是它不会处理突发的情况,只能处理程序中已经写好的,已经预测到的事情,这就叫做弱人工智能。

在AI领域之中,图像识别技术占据着极为重要的地位,而随着计算机技术与信息技术的不断发展,AI中的图像识别技术的应用范围不断扩展,例如IBM的Watson医疗诊断、各种指纹识别、及常用的支付宝的面部识别,以及百度地图中全景卫星云图识别等都属于这一应用的典型,AI这一技术已经应用于日常生活之中,图像识别技术将来定会有着较为广泛的运用。

1.3.2  机器学习

机器学习(Machine Learning,简称为ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习是一类算法的总称,这些算法企图从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类,更具体的说,机器学习可以看作是寻找一个函数,输入是样本数据,输出是期望的结果,只是这个函数过于复杂,以至于不太方便形式化表达。需要注意的是,机器学习的目标是使学到的函数很好地适用于“新样本”,而不仅仅是在训练样本上表现很好。学到的函数适用于新样本的能力,称为泛化(Generalization)能力。

机器学习有一个显著的特点,也是最机器学习最基本的做法,就是使用一个算法从大量的数据中解析并得到有用的信息,并从中学习,然后对之后真实世界中会发生的事情进行预测或作出判断。机器学习需要海量的数据来进行训练,并从这些数据中得到要用的信息,然后反馈到真实世界的用户中。

我们可以用一个简单的例子来说明机器学习,假设在淘宝或京东购物的时候,天猫和京东会向我们推送商品信息,这些推荐的商品往往是我们自己很感兴趣的东西,这个过程是通过机器学习完成的。其实这些推送商品是京东和天猫根据我们以前的购物订单和经常浏览的商品记录而得出的结论,可以从中得出商城中的哪些商品是我们感兴趣、并且我们会有大几率购买,然后将这些商品定向推送给我们。

1.3.3  深度学习

深度学习(DL, Deep Learning)是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。 深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。

深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。

1.3.4  基于神经网络的图像识别

神经网络图像识别技术是一种比较新型的图像识别技术,是在传统的图像识别方法和基础上融合神经网络算法的一种图像识别方法。这里的神经网络是指人工神经网络,也就是说这种神经网络并不是动物本身所具有的真正的神经网络,而是人类模仿动物神经网络后人工生成的。在神经网络图像识别技术中,遗传算法与BP网络相融合的神经网络图像识别模型是非常经典的,在很多领域都有它的应用。

在图像识别系统中利用神经网络系统,一般会先提取图像的特征,再利用图像所具有的特征映射到神经网络进行图像识别分类。以汽车拍照自动识别技术为例,当汽车通过的时候,汽车自身具有的检测设备会有所感应。此时检测设备就会启用图像采集装置来获取汽车正反面的图像。获取了图像后必须将图像上传到计算机进行保存以便识别。最后车牌定位模块就会提取车牌信息,对车牌上的字符进行识别并显示最终的结果。在对车牌上的字符进行识别的过程中就用到了基于模板匹配算法和基于人工神经网络算法。

1.3.5  基于非线性降维的图像识别

计算机的图像识别技术是一个异常高维的识别技术,不管图像本身的分辨率如何,其产生的数据经常是多维性的,这给计算机的识别带来了非常大的困难。想让计算机具有高效地识别能力,最直接有效的方法就是降维。降维分为线性降维和非线性降维。例如主成分分析(PCA)和线性奇异分析(LDA)等就是常见的线性降维方法,它们的特点是简单、易于理解。但是通过线性降维处理的是整体的数据集合,所求的是整个数据集合的最优低维投影。

经过验证,这种线性的降维策略计算复杂度高而且占用相对较多的时间和空间,因此就产生了基于非线性降维的图像识别技术,它是一种极其有效的非线性特征提取方法。此技术可以发现图像的非线性结构而且可以在不破坏其本征结构的基础上对其进行降维,使计算机的图像识别在尽量低的维度上进行,这样就提高了识别速率。例如人脸图像识别系统所需的维数通常很高,其复杂度之高对计算机来说无疑是巨大的“灾难”。由于在高维度空间中人脸图像的不均匀分布,使得人类可以通过非线性降维技术来得到分布紧凑的人脸图像,从而提高人脸识别技术的高效性。

注意:总之,随着深度学习和计算机硬件的发展,特别是卷积神经网络的出现,图像识别技术取得了巨大的进步。现在的图像识别系统在许多任务上已经超越了人类的表现,并且在许多实际应用中取得了广泛的应用。

  • 19
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农三叔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值