有没有想过,自动驾驶AI也可以像人类驾驶员一样,变得有自己的“喜笑怒骂”?
随着自动驾驶技术的不断进步,越来越多的自动驾驶车辆开始在实际道路中部署。然而人类的驾驶风格是有差异的,有礼貌谨慎的驾驶员,也有鲁莽大意的驾驶员,甚至是疲劳驾驶、酒驾的驾驶员,相比之下,无人驾驶的车辆驾驶风格相对单一,这会带来一系列问题:
1.自动驾驶车辆如何能够辨别出其他人类驾驶员的驾驶风格,以便进行更高效且安全的交互?
2.如何赋予自动驾驶车辆多样的驾驶风格,产生拟人的驾驶行为,以便融入人类驾驶环境中,不会让其他人类驾驶员感到怪异和难以适从?
在本文中,我们将介绍一种方法,使得无人车拥有人类一样的驾驶风格和心理活动。
首先,我们需要简单介绍一下决策AI驾驶车辆的基本工作原理。通常,无人车通过Lidar,Camera,Radar等感知系统实时感知车辆外部环境(Perception)并自我定位(Localization),并基于当前或者历史状态信息,对其他道路参与者的未来意图以及轨迹进行预测(Prediction),随后根据工程师们设定或者从数据中学习出的奖励或优化机制来规划处一条安全,高效且舒适的路径(Planning)。在这种Optimization-Based的规划方法中,无人车的行为决策很大程度上取决于设定的奖励/优化机制。
在传统的方法中,无人车的优化目标通常包含无人车自身的安全,效率和舒适性,我们称之为自我型规划策略(egoism policy)。一般而言,这样的优化目标能够解释并产生大部分的驾驶行为。然而,在我们实际生活中,我们常常看到一些礼让,或者是鲁莽的驾驶行为。这些行为难以被传统的自我型规划策略解释。因此,从心理学出发,我们需要考虑人类的礼貌行为(courtesy policy),自信行为(confidence policy)。礼貌性行为,指的是人类在与人交互时,避免产生使他人改变计划,会有他人带来麻烦的行为。而自信行为,则指人类喜欢确定性的结果而不是不确定性的结果,因此会主动产生动作以减小不确定性。
因此,为了捕捉人类的这些心理行为,本方法提出了一套“社会兼容型规划”(Socially-Compatible Policy):无人车的奖励/优化目标中,不仅仅包含自身的安全、高效和舒适性(egoism reward),还同时考虑了对其他人造成的不便性(courtesy reward),以及决策的自信程度(confidence reward)。最终的决策结果,是三者之间的一个平衡。这样的方案使得无人车可以:
1)产生多样的,拟人的驾驶风格
2)辨认出其他人类驾驶员的驾驶风格
3)针对人类驾驶员过往的驾驶风格,对其未来行为做出更准确的预测