计算机视觉算法
计算机视觉分为光度视觉、语义视觉和几何视觉,分别从传统的图像处理、立体视觉和三维重建、物体检测和识别发展而来,将来的发展趋势是深度学习方向,如下图所示:
这三类计算机视觉任务定义如下:
光度视觉定义:采集图像,处理图像(图像降噪、增强、矫正、剪裁等)。
语义视觉定义:理解图像,表达图像(可以是自然语言,也可以是数学语言等)。
几何视觉定义:变换图像,重构图像(2D或3D的,现实、虚拟或者混合现实的)。
光度视觉分类:图像基本操作、图像去噪和图像增强、图像矫正和图像剪裁等。
语义视觉分类:图像检测和图像识别(传统算法),语义分割、实例分割和全景分割(AI算法),图像检索和图像标注。
几何视觉分类:图像拼接(静态2D现实的几何图像)、三维重建(静态3D现实的几何图像)、物体追踪(动态现实的几何图像)、地图构建(稀疏地图和稠密地图、局部地图和全局地图、高精地图)、XR(虚拟现实、增强现实、混合现实的几何图像)
将来计算机视觉将回归本质,跟常识、领域知识、语言、多模态和学习等各个领域融合发展。
视觉SLAM可以认为是计算机视觉在几何感知方面的重要应用!
实例分割、语义分割与全景分割的区别参考链接:
https://wap.sciencenet.cn/blog-3428464-1280762.html?mobile=1
https://zhuanlan.zhihu.com/p/303355997
腾讯 AI Lab & Robotics X 主任张正友博士:计算机视觉的三生三世 | CCF-GAIR 2019
https://www.leiphone.com/category/academic/qdRAXECDx3lcazlb.html