全方位介绍图像处理、深度学习与计算机视觉的概念、异同及联系

本文全方位介绍了图像处理、深度学习与计算机视觉的概念、异同以及联系

一. 简述

1. 概念:
  • 计算机视觉(computer vision technique)又称机器视觉,是从图像或者视频中提出符号或者数值信息,分析计算该信息以进行目标的识别、检测和跟踪等。更形象的说,计算机视觉就是让计算机像人类一样能看到图像,并看懂理解图像
  • 图像处理(image processing)是指用计算机对图像进行分析,以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组,该数组的元素称为像素,其值称为灰度值。图像处理技术一般包括图像压缩增强和复原匹配、描述和识别3个部分。
  • 深度学习(deep learning)是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
2. 常用技术:

计算机视觉常用技术:

  • 图像处理能力赋予了计算机看即获取的能力,是人工智能的重要输入。

  • 图像描述是图像理解的前提,其作用是挖掘一般或主要信息去描述图像。

  • 模式识别、机器学习、深度学习等算法赋予计算机看懂的能力,是人工智能的核心,更形象的说就是让计算机像人的大脑去理解图像。

图像处理常用技术:

  • 图像变换:由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅立叶变换、沃尔什变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理,不仅可减少计算量,而且可获得更有效的处理(如傅立叶变换可在频域中进行数字滤波处理)。
  • 图像编码压缩:图像编码压缩技术可减少描述图像的数据量(即比特数),以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许的失真条件下进行。
  • 图像增强和复原:图像增强和复原的目的是为了提高图像的质量,如去除噪声,提高图像的清晰度等。图像增强不考虑图像降质的原因,突出图像中所感兴趣的部分。如强化图像高频分量,可使图像中物体轮廓清晰,细节明显;如强化低频分量可减少图像中噪声影响。
  • 图像分割:图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征有图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。
  • 图像描述:图像描述是图像识别和理解的必要前提。作为最简单的二值图像可采用其几何特性描述物体的特性,一般图像的描述方法采用二维形状描述,它有边界描述和区域描述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。
3. 计算机视觉的应用场景

本文重点介绍计算机视觉任务的三大应用,分别是图像识别、目标检测图像分割

  1. 图像识别又叫图像分类,就是输入一张图片,输出该图像的类别,让计算机识别人、交通信号灯、动物等这些信息,这是广义上的图像识别。在工业界和学术界还有针对特定目标的识别,比如车牌识别,在高速公路的ETC口,不需要人工收费,摄像头会识别你的车牌并收取相应的费用。另外人脸识别在日常生活中也得到了广泛的应用,如支付宝的人脸支付等。

  2. 目标检测是计算机视觉任务中另一个常见的应用,其目的是输出给定图像中特定目标的位置,类别等。由此可见,目标检测是对目标识别的进一步发展,计算机不仅要输出图像中目标的位置,还要给出目标的类别。目标检测一个常见的应用是行人检测,比如在一个交通路口,快速地检测出摄像头中拍到的所有行人,可以估计人流数,从而对异常事件进行预警。

  3. 目标分割是与计算机视觉任务相关的第三个任务,图像分割又可分为图像语义分割个体分割。图像语义分割是将图像分割成一个个独立的个体,每个个体具有一定的语义意义。图像个体分割是比图像语义分割更进一步的任务,其是图像语义分割和图像检测的结合,即不仅要独立出所有的物体,还要输出所有物体的位置。图像分割是计算机解释图像的过程,这类似于人理解图像,就需要找出图像中一个个的物体,找出物体之间的关系等。

4. 计算机视觉面临的挑战

未来计算机视觉任务发展面临的挑战主要来自三个方面:

  • 有标注的图像和视频数据较少。机器在模拟人类智能进行认知或者感知的过程中,需要大量有标注的图像或者视频数据指导机器学习其中一般的模式。当前,主要依赖人 工标注海量的图像视频数据,不仅费时费力而且没有统一的标准,可用的有标注的数据有限,这使机器的学习能力受限。
  • 计算机视觉技术的精度有待提高。如在物体检测任务中,当前最好的检测正确率为66%,这样的结果只能应用于对正确率要求不是很高的场景下。
  • 提高计算机视觉任务处理的速度迫在眉睫。图像和视频信息需要借助高维度的数据进行表示,这是让机器看懂图像或视频的基础,这就对机器的计算能力和算法的效率提出很高的要求。

二. 图像处理与机器视觉的区别与共同点

1. 程度不同

  • 图像处理是用计算机对图像进行分析,以达到所需结果的技术。

  • 计算机视觉是让计算机获取图像到看懂图像的过程。更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

2. 内容不同

  • 图像处理技术一般包括图像压缩,增强和复原,匹配、描述和识别3个部分。

  • 计算机视觉技术包括图像获取、预处理、特征提取、检测分割、高级处理。

3. 应用程度不同

  • 图像处理应用于:摄影及印刷、卫星图像处理、医学图像处理、面孔识别,特征识别、显微图像处理、汽车障碍识别

  • 计算机视觉应用于:视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分。

三. 机器视觉与深度学习的关系

长期以来,让计算机能看会听可以说是计算机科学家孜孜不倦的追求目标,这个目标中最基础的就是让计算机能够看见这个世界,让计算机能够像人类一样拥有眼睛,让它们也能看懂这个世界。

  • 人类视觉神经的启迪
    • 1958 年,DavidHubel 和Torsten Wiesel 在 JohnHopkins University,研究瞳孔区域与大脑皮层神经元的对应关系。他们在猫的后脑头骨上,开了一个3 毫米的小洞,向洞里插入电极,测量神经元的活跃程度。然后,他们在小猫的眼前,展现各种形状、各种亮度的物体。并且,在展现每一件物体时,还改变物体放置的位置和角度。当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃。这个发现激发了人们对于神经系统的进一步思考。神经-中枢-大脑的工作过程,或许是一个不断迭代、不断抽象的过程。
  • 视觉神经科学观点
    • 从DavidHubel 和Torsten Wiesel 的视觉神经实验之后,视觉神经科学正式被人们所确立,截止目前,关于视觉神经的几个广为接受的观点有以下几点:
      • 大脑对视觉信息的处理是分层级的,低级脑区可能处理对边度,边缘什么的,高级脑区处理更抽象的比如人脸、房子、物体的运动之类的。信息被一层一层抽提出来往上传递进行处理。
      • 大脑对视觉信息的处理也是并行的,不同的脑区提取出不同的信息干不同的活,有的负责处理这个物体是什么,有的负责处理这个物体是怎么动的。
      • 脑区之间存在着广泛的联系,同时高级皮层对低级皮层也有很多的反馈投射。
      • 信息的处理普遍受到自上而下自下而上的注意的调控。也就是说,大脑可能选择性的对某些空间或者某些特征进行更加精细的加工。
    • 进一步的研究发现,当一个特定物体出现在视野的任意一个范围,某些脑部的视觉神经元会一直处于固定的活跃状态。从视觉神经科学的角度解释,就是人类的视觉辨识是从视网膜到脑皮层,神经系统从识别细微细小的特征演变为目标识别。对于计算机来说,如果拥有这么一个“脑皮层”对信号进行转换,那么计算机仿照人类拥有视觉就会变为现实。
  • 计算机视觉的难点与人工神经网络
    • 尽管在大量的研究下,人类视觉的秘密逐渐被揭露开,但是想要将这写想法和经验运用于计算机上却并不是那么简单。计算机的识别是机械化的,这样就导致即使读取的同一张图片,当光线不一样时,计算机判别的结果都有很大可能发生改变。对于计算机来说,识别两个独立的物体容易,但是在不同的环境下识别同一个问题就比较有难度。但是只有解决了后面这个问题,才算是比较完善的视觉系统。
    • 计算机视觉的核心在于如何忽略同一个物体内部的差异而强化不同物体之间的分别,即同一个物体相似,而不同的物体之间有很大差异。
    • 人工神经网络在20世纪60年代就产生萌芽,但是限于当时的计算机硬件资源,其理论只能停留在简单的模型之上,无法得到全面的发展和验证。
    • 20世纪80年代人工神经网络具有里程碑意义的理论基础 “反向传播算法” 的发明,将原本非常复杂的链式法则拆解为一个个独立的、只有前后关系的连接层,并按各自的权重进行错误分配。
    • 随着研究的进一步深入,2006年,Geoffrey Hinton 在深层神经网络的训练上取得了突破。他首次证明了使用更多隐层和更多神经元的人工神经网络具有更好的学习能力。其基本原理就是使用具有一定分布规律的数据,保证神经网络模型初始化,再使用监督数据在初始化好的网络上进行计算,使用反向传播对神经元进行优化调整。
  • 应用深度学习解决计算机视觉的问题

    • “带有卷积结构的深度神经网络(CNN)”被大量应用于计算机视觉之中。这是一种仿照生物视觉的逐层分解算法,分配不同的层级对图像进行处理。 卷积是两个函数之间的相互关系,然后得出一个新的值,他是在连续空间做积分计算,然后在离散空间内求和的过程。实际上在计算机视觉里面,可以把卷积当做一个抽象的过程,就是把小区域内的信息统计抽象出来。

    • CNN,特别是其基本原理与算法被视为计算机视觉的首选解决方案,深度学习应用于计算机视觉上还有更多优点

      1. 深度学习算法的通用性很强,在传统算法里面,针对不同的物体需要定制不同的算法。相比来看,基于深度学习的算法更加通用,比如在传统CNN基础上发展起来的faster RCNN,在人脸、行人、一般物体检测任务上都可以取得非常好的效果。

      2. 深度学习获得的特征(feature)有很强的迁移能力。所谓特征迁移能力,指的是在A任务上学习到的一些特征,在B任务上使用也可以获得非常好的效果。

      3. 工程开发、优化、维护成本低。深度学习计算主要是卷积和矩阵乘法,针对这种计算优化,所有深度学习算法都可以提升性能。

  • 20
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值