计算机视觉（Computer Vision）四大任务

Lipo饼干

于 2024-03-02 21:20:16 发布

阅读量2.8k

点赞数 53

文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/m0_73213588/article/details/136421974

版权

一、计算机视觉是什么？

计算机视觉(Computer Vision，简称CV)是一门研究如何使机器“看”的科学，它使计算机能够从图像或多维数据中获取信息，以感知和理解环境。

二、计算机视觉应用领域

该领域的应用非常广泛，包括人脸识别、自动驾驶、无人机、医学影像分析、工业生产等，核心任务包括图像分类、物体检测、图像分割、目标跟踪和场景理解等。

物体识别: 通过图像或视频流中的特征检测和分类来识别特定的物体或场景。
面部识别: 在安全和监控系统中用于身份验证或在社交媒体平台上用于自动标记图片中的人物。
自动驾驶汽车: 使用计算机视觉来识别和理解道路上的环境，包括车辆、行人、交通标志和道路标线。
医学图像分析: 在医疗领域中，用于分析X光、MRI或CT扫描等，辅助医生诊断疾病。

三、计算机视觉四大基本任务

计算机视觉的四大基本任务是分类、定位、检测和分割，它们构成了该领域的核心问题。

1. 分类 (Classification):

任务描述: 确定图像属于哪一个预先定义的类别。例如，给定一张图片，分类任务可能是确定图片是不是一只猫。
应用场景: 图像分类是许多高级视觉任务的基础，常用于内容发现、图像检索和自动驾驶车辆等领域。

例：AlexNet是一个用于图像分类的深度学习模型，它可以将输入的图像分为不同的类别。

2. 定位 (Localization):

任务描述: 在图像中找到特定物体的位置，并通常用边界框表示。与分类不同，定位会提供物体的精确位置。
应用场景: 定位用于需要知道物体具体位置的场景，比如在医学图像中标识肿瘤的位置，或者在自动驾驶中识别其他车辆的位置。

传统的机器学习方法，如支持向量机（SVM）和随机森林（RF），可以通过特征提取和回归分析来确定物体的位置。例如，可以使用HOG（方向梯度直方图）或SIFT（尺度不变特征变换）等特征描述器，然后用回归模型来预测物体的边界框坐标。

3. 检测 (Detection):

任务描述：检测任务结合了分类和定位，不仅需要识别图像中物体的类别，还要确定它们的位置。与定位不同，检测任务需要识别出图像中所有感兴趣的物体。
应用场景: 目标检测广泛应用于视频监控、人脸识别、交通管理等。

例：物体检测的鼻祖论文RCNN：将目标检测任务分解为两个主要步骤：候选区域生成和目标分类。

4. 分割 (Segmentation):

任务描述：这是计算机视觉中最细粒度的任务。它分为两个子任务：
语义分割 (Semantic Segmentation): 识别图像中所有像素点的类别，但不区分同类别的不同实例。
实例分割 (Instance Segmentation）: 在语义分割的基础上，进一步区分同一类别中的不同个体。
应用场景: 分割技术用于医疗成像（例如，分割不同的组织类型）、自动驾驶车辆（例如，道路与非道路区域的分割）和图像编辑软件（例如，对象的精细抠图）。