计算机视觉发展报告
Report of Computer Vision Development
目录
1. 计算机视觉 3
1.1. 计算机视觉概念 3
1.2. 计算机视觉发展历史 5
1.3. 人才概况 7
1.4. 论文解读 9
1.5. 计算机视觉进展 24
计算机视觉
1.计算机视觉
1.1. 计算机视觉概念
计算机视觉(computer vision ),顾名思义,是分析、研究让计算机智能化
[3]
的达到类似人类的双眼 “看”的一门研究科学 。即对于客观存在的三维立体化
的世界的理解以及识别依靠智能化的计算机去实现。确切地说,计算机视觉技术就
是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分
类、识别、跟踪、判别决策等功能。总之,计算机视觉系统就是创建了能够在
2D 的平面图像或者 3D 的三维立体图像的数据中,以获取所需要的 “信息”的一
个完整的人工智能系统。
计算机视觉技术是一门包括了计算机科学与工程、神经生理学、物理学、信
号处理、认知科学、应用数学与统计等多门科学学科的综合性科学技术。由于计算
机视觉技术系统在基于高性能的计算机的基础上,其能够快速的获取大量的数据信
息并且基于智能算法能够快速的进行处理信息,也易于同设计信息和加工控制信息集
成。
计算机视觉本身包括了诸多不同的研究方向,比较基础和热门的方向包括:
物体识别和检测(Object Detection ),语义分割(Semantic Segmentation ),运动
[4]
和跟踪(Motion & Tracking ),视觉问答(Visual Question & Answering )等 。
物体识别和检测
物体检测一直是计算机视觉中非常基础且重要的一个研究方向,大多数新的
算法或深度学习网络结构都首先在物体检测中得以应用如VGG-net ,GoogLeNet ,
ResNet 等等,每年在 imagenet 数据集上面都不断有新的算法涌现,一次次突破
历史,创下新的记录,而这些新的算法或网络结构很快就会成为这一年的热点,
并被改进应用到计算机视觉中的其它应用中去。
物体识别和检测,顾名思义,即给定一张输入图片,算法能够自动找出图片
中的常见物体,并将其所属类别及位置输出出来。当然也就衍生出了诸如人脸检测
(Face Detection ),车辆检测(Viechle Detection )等细分类的检测算法。
语义分割
语义分割是近年来非常热门的方向,简单来说,它其实可以看作一种特殊的
分类——将输入图像的每一个像素点进行归类,用一张图就可以很清晰地描述出来。
很清楚地就可以看出,物体检测和识别通常是将物体在原图像上框出,可以说是
“宏观”上的物体,而语义分割是从每一个像素上进行分类,图像中的每一个像素
都有属于自己的类别。
运动和跟踪
跟踪也属于计算机视觉领域内的基础问题之一,在近年来也得到了非常充足
的发展,方法也由过去的非深度算法跨越向了深度学习算法,精度也越来越高,
不过实时的深度学习跟踪算法精度一直难以提升,而精度非常高的跟踪算法的速度
又十分之慢,因此在实际应用中也很难派上用场。
学术界对待跟踪的评判标准主要是在一段给定的视频中,在第一帧给出被跟
踪物体的位置及尺度大小,在后续的视频当中,跟踪算法需要从视频中去寻找到被
跟踪物体的位置,并适应各类光照变换,运动模糊以及表观的变化等。但实际上跟踪
是一个不适定问题 (ill posed problem ),比如跟踪一辆车,如果从车的尾部开始跟
踪,若是车辆在行进过程中表观发生了非常大的变化,如旋转了 180 度变成了侧
面,那么现有的跟踪算法很大的可能性是跟踪不到的,因为它们的模型大多基于第
一帧的学习,虽然在随后的跟踪过程中也会更新,但受限于训练样本过少,所以难以
得到