详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割
本篇博客只考虑与人工智能相关的图像技术,其他领域比如光学、成像等不考虑。
前人对计算机视觉的定义:
- “对图像中的客观对象构建明确而有意义的描述”(Ballard&Brown,1982)
- “从一个或多个数字图像中计算三维世界的特性”(Trucco&Verri,1998)
- “基于感知图像做出对客观对象和场景有用的决策”(Sockman&Shapiro,2001)
计算机视觉的应用领域:
- 人脸识别:比如人脸登录和扫脸支付。
- 图像检索:根据输入的内容来搜索相关的图片,比如百度搜索丝袜美女。
- 游戏和控制:基于微软 Kinect的体感游戏,VR游戏等。
- 监测:用于监测可疑行为的监视摄像头遍布于各大公共场所中,比如天网或者行人闯红灯等。
- 生物识别技术:指纹、虹膜和人脸匹配仍然是生物识别领域的一些常用方法。
- 智能汽车:计算机视觉仍然是检测交通标志、灯光和其他视觉特征的主要信息来源。
一、图像分类
比如,手写体识别,识别出图片中的数字是多少。
二 、对象检测
识别图像中的对象,涉及到为各个对象输出边界框和标签。通俗来说,就是为图像中的对象画框框。
三 、 目标跟踪
目标跟踪,是指在特定场景跟踪某一个或多个特定感兴趣对象的过程。
四、语义分割
将整个图像分成一个个像素组,然后对其进行标记和分类。语义分割试图在语义上理解图像中每个像素的角色(比如,识别它是汽车、摩托车还是其他的类别)。
五 、实例分割
实例分割将不同类型的实例进行分类,比如用 5 种不同颜色来标记 5 辆汽车。分割实例时,会看到多个重叠物体和不同背景的复杂景象,我们不仅需要将这些不同的对象进行分类,而且还要确定对象的边界、差异和彼此之间的关系!