计算机视觉深度学习任务包括图像分类、图像分割、目标检测、图像相似度评分、关键点检测、姿态估计、三维网格估计等。
图像分类、图像分割、目标检测是现代计算机视觉的三项基本任务,也可以说是三座大山或者三辆马车。
图像分类:为图像指定 一个或者多个标签。它可以是单标签分类,也可以是多标签分类。单标签指一张图像只能属于一个类别,不属于其他类别;而多标签指一张图像中存在多个类别。
图像分割:将图像“分割”或“划分”成不同的区域,每个区域通常对应着一个类别。
目标检测:对图像中的感兴趣的目标周围绘制矩形框,并给出每个矩形对应的类别。
图像相似度评分:评估2张图像的视觉相似程度。通俗讲,就是给2张图像打个相似度分数。
关键点检测:精确定位图像的感兴趣的属性,如面部特征。
姿态估计:对单张图像或者一段视频中的人或者其他的姿态的估计,如人体姿态。