1.1感知领域目前研究热点:
动作识别、行人手势识别、人体姿态估计(骨架提取)
复杂道路场景语义理解与场景识别(模式识别)(城市道路路口、郊区直行路段……)
动态场景理解和多目标跟踪(MOT):目标外观模型、目标运动估计、目标检测、数据关联
高精度语义分割(人、车、广告牌与标志牌、车尾灯与红绿灯、可行驶区域、树木、天空……)
可行驶区域检测方法类别:
基于直接特征的可行驶区域检测
基于直接特征的可行驶区域检测:基于颜色、基于纹理、基于边缘
基于间接特征的可行驶区域检测:消失点(灭点)法,在透视变换中,视场中的平行线都会都会相交于一点,即灭点,是平行透视变换的一个交点
基于深度学习的可行驶区域检测:
语义分割(像素级分类任务)
基于FCN(全卷积网络)的可行驶区域分割(编码器-解码器架构来完成可行驶区域的模型-kittiseg)。
FCN(全卷积网络):全卷积网络采用端到端训练方法建立深度模型,完成语义分割任务。
FCN与CNN差异:传统的CNN是将传统的特征提取过程和分类器合并在一起,一般在卷积层最后有全连接层,最后一个全连接层充当分类器,输出一堆向量,对应可能的输出。而在 FCN中,用1✖️1的卷积代替卷积神经网络中的全连接层。FCN中上采样是采用反卷积的方式实现的,为了保证上采样的优化效果,用双线性插值对其初始化。
场景流(scene flow)、光流与事件相机
场景流:空间中每一点的位置信息和其相对于摄像头的运动,采用光流估计与深度估计的结合,只关注深度变化量,不关注深度绝对值
场景流应用方向:补充和改进视觉测距和SLAM算法,用于人机交互、虚拟现实和增强现实
光流估计:一种二维运动场,是空间中每一点沿摄像头平面的运动状态
光流估计方法:LK(Lucus-Kanade)算法(一种稀疏光流算法)、Flownet方法(一种基于深度学习的光流计算方法