智能物联网设备、智能手机和可穿戴设备正在渗透到我们日常生活的各个方面。这些设备配备了各种传感方式,包括视频、音频、惯性传感器、激光雷达等,实现了多种传感应用。研究表明,与其孤立地操作每个传感器,不如将来自多个传感流的信息结合起来,从而提高性能。这种方法被称为多模态传感器融合,人类活动识别(HAR)是受益于使用多种传感器的应用之一。近年来,深度学习算法已被证明可以在使用多模态传感器数据的HAR中实现高精度。然而,为了设计一个可靠的HAR系统,仍然需要解决以下挑战。第一个挑战是传感设备的异质性。这是因为监测一个人的设备集可能随时间变化,或者设备可能有不同的采样频率。第二个挑战是深层神经网络(DNNs)被认为是黑盒,因为研究它们的结构往往不能深入了解实际的基本机制。很难 "进入"网络并确定为什么模型在训练期间选择特定的特征而不是其他特征,从而使DNNs的预测对终端用户来说不值得信任。这种缺乏信任的情况阻碍了DNN模型在健康相关应用和其他高风险应用中的采用,在这些应用中,敏感的决策需要有足够的附带解释。因此,该论文提出了一些方法,通过对现有设备的信息进行利用,并向终端用户提供伴随每个预测的、人类可理解的解释,从而产生对设备异质性的准确预测。
首先,我们提出了一个解决方案,以解决我们的工作 "SenseHAR "中与活动识别的传感器设备异质性相关的挑战。我们设计了一个可扩展的基于深度学习的解决方案,其中每个设备学习自己的传感器融合模型,将原始传感器值映射到一个共享的低维潜在空间,我们称之为 "SenseHAR"--一个虚拟活动传感器。无论设备的子集、传感器的可用性、采样率或设备位置如何,虚拟传感器都有相同的格式和行为。SenseHAR帮助机器学习工程师在这个虚拟活动传感器的基础上,以一种与硬件无关的方式开发他们的特定应用(例如,从手势识别到日常生活的活动)模型。
接下来,我们解决深度学习模型中活动识别的可解释性问题。我们首先从终端用户的角度出发,为不同模式的分类任务确定最受欢迎的事后解释技术。为此,我们进行了一项大规模的亚马逊Mechanical Turk研究,比较了流行的最先进的解释方法,以确定哪些是更好的解释模型决定的经验。我们的结果显示,通过实例进行解释是最受欢迎的解释类型。我们还提供了一个开源库ExMatchina,提供了一个现成的、广泛适用的实例解释的实现路径。然后,我们专注于可解释的DNN模型,特别是提供基于概念的解释的模型。我们提出了CoDEx,一个自动发现和提取概念的模块,它能从视频的自然语言解释中识别丰富的复杂概念--避免了预先定义无定形的概念集的需要。最后,我们介绍了XCHAR,一个可解释的复杂人类活动识别模型,它能准确预测复杂的活动,并以人类可理解的时间概念的形式提供解释。