计算机视觉CV体系总结
从技术上主要分两大类:深度学习、几何方法
从研究方向上主要分为两大类:基于视觉原理的语义理解、基于测量几何的三维感知
个人分类:
一、
数字图像处理主要任务:图像去噪、增强、压缩、复原、分割、提取特征等
图像评价标准:SSIM(结构相似度)、PSNR(峰值信噪比)、MSE(均方误差)
参考:极市平台《2021CV算法工程师入门路线图》
冈萨雷斯《数字图像处理(第三版)》
二、
计算机视觉与深度学习主要任务:
(1)分类
(2)目标检测 二阶段:R-CNN、一阶段:YOLO,Anchor-free:CornerNet
Anchor:提取候选目标框,那个矩形
(3)语义分割 FCN
(4)实例分割(相同类别个体被分割成不同类型)Mask R-CNN
(5) 其他:生成对抗网络、自监督学习、重特征参数化、Transformer相关、多层感知机相关
参考:极市平台《2021CV算法工程师入门路线图》
B站北邮鲁鹏副教授的《计算机视觉与深度学习》课程
三、
三维视觉定义、需求、发展历史、未来:
三维视觉是基于图片、视频以及各类深度传感器信,采用几何、统计以及优化等数学工具对现实世界进行三维测量、定位、建模以及理解。
需求:AR/VR、机器人、自动驾驶、全息交互与通信、人脸识别、动物模型行为计算
摄影测量理论时代(1963)
光场摄像时代(1995)
SLAM时代(2002)
深度相机时代(2010)
表征学习时代(2015)
语义学习时代(未来趋势)
参考:刘烨斌副教授《三维视觉:过去、现在与未来》报告