TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

最新推荐文章于 2025-02-24 17:17:52 发布

程序员笑武

最新推荐文章于 2025-02-24 17:17:52 发布

阅读量1.3k

点赞数 9

文章标签：自动化运维人工智能数据库 oracle 语言模型自然语言处理

本文链接：https://blog.csdn.net/m0_59164304/article/details/142962986

版权

中国科学院自动化研究所、鹏城实验室
论文链接:IEEE DOI: 10.1109/TPAMI.2024.3367412

简介

本文研究了跨模态联邦人类活动识别（CM-FHAR）的新问题，有利于推动HAR模型在更多本地设备上的大规模使用。CM-FHAR 至少存在三个挑战：1）分布式通用跨模态特征学习，2）模态相关的判别特征学习，3）模态不平衡问题。 为了应对这些挑战，作者提出了一种模态协作活动识别网络（MCARN），全面学习所有客户端共享的全局活动分类器和多个依赖于模态的私有活动分类器。为了产生与模态无关和特定于模态的特征，在分离损失的约束下学习利他编码器和以自我为中心的编码器以及在超球体中协作学习的对抗模态鉴别器。为了解决模态不平衡问题，文中还设计了角度边距调整机制，增强了主要模态的内部紧凑性，并增加了不同模态间的区分度。实验结果表明，该方法在多模态和模态不平衡数据上都取得了最先进的性能。

研究动机

联邦学习被广泛应用于人类活动识别（HAR），能够保护用户隐私，但当前的研究主要集中于单模态或多模态下数据分布相同的场景。然而，在现实中，不同客户端往往拥有不同模态的数据，例如某些客户端可能提供运动传感器数据，而其他客户端则仅提供视频数据。这种模态不一致性增加了建模的难度，基于上述考虑，本文研究了跨模态联合人类活动识别（CM-FHAR）的新任务，其重点是分布式聚合在不同模态的客户端上学习的本地模型，如图 1 所示。

图 1. CM-FHAR © 与传统联合人类活动识别 (FHAR) 任务 (a)、(b) 的比较。

与传统的单模态或多模态 FHAR 任务相比，CM-FHAR 任务至少面临以下三个挑战：

1）如何为具有跨模态异构性的不同客户端分布式构建公共特征子空间。 在CM-FHAR任务中，不同本地客户端的数据总是具有非常不同的结构和内容，例如，传感器信号以三轴值的序列记录，而视频具有更加复杂的空间和时间信息，这导致比传统的联邦 HAR 具有更大的分布异质性。为了同步利用所有客户端上的分布式数据，我们需要为不同客户端学习一个公共子空间，以消除跨模态异构性。这很困难，因为隐私限制阻止我们像传统的跨模态嵌入方法一样将分布式本地数据组织在一起以学习共享特征空间。

2)如何找到有助于区分特定客户端活动的模态相关特征。 在 CM-FHAR 任务中，由于跨模态异质性，不同的客户端可能有不同的判别模式。例如，对于拥有视频数据的客户来说，识别网球拍的视觉模式以正确识别打网球的活动是有用的。然而，这种辨别能力对于具有加速度计或陀螺仪信号的客户端来说是多余的。

3）如何解决模态不平衡问题。 由于数据多样性，从某些设备（例如移动传感器）收集和注释样本总是比从其他设备（例如相机）收集和注释样本更困难，这自然会导致模态不平衡的数据。在这种情况下，可能只有少数本地客户具有稀有模式的标记样本，而主导模式的客户相对丰富，这将为 CM-FHAR 任务带来额外的困难。

论文贡献

新问题定义: 本文首次提出了跨模态联邦人类活动识别问题（CM-FHAR），适用于在不同设备上学习和应用人类活动模型。
模态协作识别网络（MCARN）: 设计了一种模态协作的活动识别网络，能够学习模态无关的全局分类器和模态依赖的私有分类器。
角度边距调整机制: 提出了灵活的角度边距调整机制，有效解决了模态不平衡问题，增强了主要模态的紧凑性并增加了模态间的区分度。
关系感知全局-本地校准: 提出了一种关系感知的校准机制，通过全局和本地的配对关系约束，提升了稀有模态分类器的稳定性。

模型框架

图 2. 跨模态联合人类活动识别框架。为简单起见，我们假设该图中存在三种模态（即 M = 3）。在每个本地客户端上，我们首先使用利他编码器和自我中心编码器来产生模态不可知特征（即，）和模态特定特征（即，），这些特征进一步用于学习共享活动分类器 ψsc 和私有分类器分别是活动分类器ψpc。采用模态鉴别器 ψmd 来对抗性地指导利他和自我中心编码器的参数学习。服务器接收来自不同客户端的更新的局部模型，并通过加权平均获得全局模型。对于共享活动分类器和模态鉴别器，我们直接聚合来自所有客户端的本地模型的参数。对于利他编码器、自我中心编码器和私有活动分类器，我们进行模态感知聚合，以使具有相同模态的客户端共享参数。

MCARN网络包括模态无关编码器（altruistic encoder）、模态特定编码器（egocentric encoder）、全局共享分类器和私有分类器，以及一个模态判别器。整个框架通过联邦学习进行训练，包含本地更新和全局聚合两个交替步骤：

模态无关特征学习: 使用模态无关编码器将输入嵌入模态不可知的特征空间。
模态特定特征学习: 使用模态特定编码器获取模态依赖的特征表示。
模态判别器: 通过对抗学习的方式，引导模态无关编码器和模态特定编码器的参数学习。
角度边距调整: 对模态不平衡的数据应用边距调整机制，增强主要模态的内部紧凑性并增加模态间差异。
全局-本地校准: 通过约束共享分类器和私有分类器的类级配对关系，提升稀有模态下的私有分类器的稳定性。

损失函数

模态判别损失:
角度边距调整损失:
关系感知校准损失:

实验结果

本文在四个公共数据集上进行了广泛实验，验证了MCARN的有效性：

数据集: 实验使用了Epic-Kitchens、Multimodal-EA、Stanford-ECM和Ego-Exo-AR等数据集。
结果: MCARN在所有数据集上均优于现有的最先进方法，特别是在模态不平衡的情况下表现尤为突出。该方法能够有效减少不同模态间的异构性，并提高少数模态的识别性能。实验还包括了消融研究，展示了各模块的有效性。

表 I 在四个数据集上与最先进方法的比较结果

表 III 在四个数据集上的消融实验

图 3.（a）Epic-Kitchens、（b）Multimodal-EA、（c）Stanford-ECM、（d）Ego-Exo-AR 上不同模态失衡率的实验结果（所有模态的平均值）。ADJl 表示对数调整，ADJa 表示角度裕度调整，CAL 表示关系感知全局局部校准。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述