本文介绍了计算机视觉的技术和应用,全文约
3500
字,阅读时间10
分钟。
目录
- 什么是计算机视觉
- 计算机视觉的主要技术
- 计算机视觉技术的应用
人们可能没有意识到他们的视觉系统是如此强大。婴儿出生后几个小时就能认出母亲的样子;乒乓球运动员根据对手的细微动作判断发球方向。人接受信息中 70%-80%
来自视觉信息,如果机器像人一样有视觉系统,机器需要“看懂”图像。
1. 什么是计算机视觉?
研究人员希望机器看起来像人类“看懂”图像,进而研究人类视觉系统,该系统包括眼球(接收光信号)、视网膜(光信号转换为电信号传输到大脑)、大脑皮层(提取电信号的有效特征并引导人们做出反应)。
为了使机器模拟人类视觉系统,研究人员使用相机模拟“眼球”获取图像信息;用数字图像处理模拟“视网膜”将模拟图像转换为数字图像,使计算机能够识别;使用计算机视觉模拟“大脑皮层”设计算法提取图像特征,进行识别和检测。机器模拟人类视觉系统是机器视觉,也称为计算机视觉(ComputerVision, CV),解决机器如何‘看懂’的图像。
2. 计算机视觉的主要技术
计算机视觉技术包括以下从简单到复杂的功能:
- 图像采集和处理——使用摄像头及其他类型的传感器采集真实世界中的三维场景,将其转化为视频。每段视频就是一系列的图像,而每个图像都是一个二维矩阵,矩阵里的每个点都代表人所能看到的颜色(这个点也就是所谓的“像素”)。
- 目标识别——对物体进行识别(例如识别出一只狗),并在此基础上掌握更多的细节特征(例如确认该狗为牧羊犬、毛色白色等)。
- 目标检测和图像分割——把图像划分为若干个不同区域和物体。
- 目标追踪——在视频中定位和跟踪物体。
- 动作识别——对动作和手势进行识别,如 Xbox 体感游戏中的舞蹈动作。
- 场景理解——对一个完整的场景(例如一只饥饿的狗正在盯着一根骨头)进行分析并理解,掌握其中复杂而微妙的关系。
- 生成式对抗网络(GAN)——其中的一个网络名为生成式网络,负责尝试生成一些看起来很真实的东西,另一个网络名为判别式网络,它会把生成式网络所合成的东西与真实的东西进行比较