01
引言
随着传感器技术和互联网的迅速发展,各种不同模态的大数据正在以前所未有的发展速度迅速涌现。对于一个待描述事物(目标、场景等),通过不同的方法或视角收集到的耦合的数据样本就是多模态数据。通常把收集这些数据的每一个方法或视角称之为一个模态。狭义的多模态信息通常关注感知特性不同的模态(如图像-文本、视频-语音、视觉-触觉等),而广义的多模态融合则通常还包括同一模态信息中的多特征融合,以及多个同类型传感器的数据融合等。因此,多模态感知与学习这一问题与信号处理领域的“多源融合”、“多传感器融合”,以及机器学习领域的“多视学习”或“多视融合”等有密切的联系。多模态数据可以获得更加全面准确的信息,增强系统的可靠性和容错性。在多模态感知与学习问题中,由于不同模态之间具有完全不同的描述形式和复杂的耦合对应关系,因此需要统一地解决关于多模态的感知表示和认知融合的问题。多模态感知与融合就是要通过适当的变换或投影,使得两个看似完全无关、不同格式的数据样本,可以相互比较融合。通俗地说,就是实现不同模态之间的“关公战秦琼”(见图 1)。这种异构数据的融合往往能取得意想不到的效果。
多模态数据目前已经在互联网信息搜索、人机交互、工业环境故障诊断和机器人等领域发挥了巨大的作用。视觉与语言之间的多模态学习是目前多模态融合方面研究成果较为集中的领域。在机器人领域目前仍面临很多需要进一步探索的挑战性问题。本文将着重介绍机器人多模态信息感知与融合,特别是在视觉与触觉融合感知方面的相关工作。
02
机器人多模态感知
机器人是指挥与控制系统中实现态势感知的重要工具。但在以机器人为代表的工程系统中,不同模态的传感器通常还只能在各自感知识别完成后做融合,使得融合逻辑的设计非常困难。最典型的案例就是 2016 年在美国特斯拉汽车在自动驾驶模式下的致死车祸。虽然该车配备了精良的传感器,但由于布局的问题,未能有效地融合视觉传感器和距离传感器信息。而在工业生产现场,由于感知模态融合能力的不足,目前只能实现一些非常简单的机械操作。
机器人系统上配置的传感器复杂多样。从摄像机到激光雷达,从听觉到触觉,从味觉到嗅觉,几乎所有传感器在机器人上都有应用。但限于任务的复杂性、成本和使用效率等原因,大多数工作仍然停留在实验室阶段。在目前市场上流行的服务机器人领域,用的最多的仍然是视觉和语