计算机视觉方向简介 | 驾驶员监控DMS-CSDN博客

作者丨黄浴（奇点汽车美研中心首席科学家兼总裁）

来源丨https://zhuanlan.zhihu.com/p/68127887

编辑丨新机器视觉

驾驶员监控系统（driver monitoring system，DMS）一般是对L2-L3级别的自动驾驶系统而言的，对L4级别是没有意义的，除非系统仍然是需要安全员的测试环节。

监控的目的是发现驾驶员走神（distraction）、疲劳（fatigue）或者打瞌睡（drowsiness），甚至出现无法驾驶的意外情况，比如欺骗辅助驾驶系统用矿泉水代替双手在方向盘上，或者与乘客争吵打架等。另外，如果作为自动驾驶的研发阶段，监控驾驶员可以提供驾驶行为的第一手数据，甚至用于仿真模拟系统中。

非侵入式（non-intrusive）方法是监测的首选方法，而基于视觉的系统更具有吸引力。主要的视觉线索包括面部特征、手特征或身体特征。许多检测系统仅使用单个视觉线索，这种系统鲁棒性差，比如出现遮挡或光照变化时，容易被干扰。所以将多种视觉线索组合才是关键，也是具有挑战性的。

一个驾驶员面部监控系统是基于驾驶员面部图像处理来研究驾驶员身心状况的实时系统。可以从眼睑闭合、眨眼、凝视方向、打哈欠和头部运动等，检测到驾驶员状态。基本分成两大类：

①. 仅从眼部区域检测驾驶员；

②. 不仅可以从眼睛中检测，还可以从脸部和头部的其他区域检测。

下图是一个驾驶员脸部监控系统框图：检测人脸，还有眼睛和其他脸部特征，同时跟踪变化，提取症状，实现疲劳和分心检测。驾驶员面部监控系统的主要挑战是：

①“如何测量疲劳？”第一个挑战是如何准确定义疲劳以及如何测量疲劳; 疲劳与体温，皮肤电阻，眼球运动，呼吸频率，心率和大脑活动之间存在关系;第一个也是最重要的疲劳迹象会在眼睛中出现。

②“如何测量注意力？”第二个挑战是测量驾驶员对道路的注意力；可以从驾驶员头部和注视方向（gaze direction）估计驾驶员的注意力。

人脸检测方法可参照一般目标检测的方法，现在深度学习也已经在这个领域展示“肌肉”。人脸检测是一个老问题，人脸检测挑战的情况有以下一些：

面内旋转;
面外旋转;
化妆品，胡须和眼镜的存在;
表情（快乐，哭泣等）;
照明条件;
脸部遮挡;
实时处理要求。

眼部区域总是先被用于驾驶员症状提取，因为最重要的心理活动与眼睛活动有关。

眼睛检测的两大类：

1) 基于红外光谱成像的方法；
2) 基于视觉的方法；

除了眼睛，还可以检测其他面部成分：嘴巴，鼻子和脸部突出（Salient）点。

面部跟踪是分析驾驶员心理活动的主要手段。这种跟踪任务和一般单目标的跟踪是相似的，主要挑战包括：

从三维空间到二维空间的映射而让一些信息丢失;
具有复杂的形状或运动;
部分遮挡;
环境光线变化;
实时跟踪要求。

与疲劳、分心和打瞌睡有关的症状提取包括：

与眼部区域有关的症状：闭眼、眼睑之间的距离、眨眼速度快、凝视方向和跳跃运动；
与嘴巴区域有关的症状：开/闭；
与头部有关的症状：点头、头部姿势和头固定不变；
与面部有关的症状：主要是表情。

下面分别举几个例子：

如图是一个基于深度神经网络（DNN）的驾驶员监控系统。

其基于脸部、双目和嘴巴三个区域的检测网络结构如下：

而基于单目（左眼）区域加嘴巴区域的检测网络结构如下：

如图是一个基于深度学习模型的人脸表情识别系统：输入图像检测面部和特征，从面部成分提取时空特征，使用预训练的分类器（图像取自CK+数据集（d））确定表情。

而整个深度学习模型是CNN和LSTM结合，如下图：

下图一个身体姿势（posture）识别驾驶员分心症状的系统。其症状类包括：喝酒，调整收音机，正确姿势驾驶，摆弄头发或化妆品，面向后面，与乘客交谈，用左手打手机通话，用右手打手机通话，用左手发短信，用右手发短信。

系统的算法框图如图：包括面部检测器、手部检测器和皮肤区域分割。对于每个输出图像（即皮肤，面部，手），训练AlexNet和InceptionV3网络（5个AlexNet和5个InceptionV3），最后识别是一个加权组合输出。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

15.国内首个3D缺陷检测教程：理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：