TPAMI 2024|跨模态联邦学习!中科院自动化所提出跨模态联邦人类活动识别方法

  • 中国科学院自动化研究所、鹏城实验室

  • 论文链接:IEEE DOI: 10.1109/TPAMI.2024.3367412

简介

本文研究了跨模态联邦人类活动识别(CM-FHAR)的新问题,有利于推动HAR模型在更多本地设备上的大规模使用。CM-FHAR 至少存在三个挑战:1)分布式通用跨模态特征学习,2)模态相关的判别特征学习,3)模态不平衡问题。 为了应对这些挑战,作者提出了一种模态协作活动识别网络(MCARN),全面学习所有客户端共享的全局活动分类器和多个依赖于模态的私有活动分类器。为了产生与模态无关和特定于模态的特征,在分离损失的约束下学习利他编码器和以自我为中心的编码器以及在超球体中协作学习的对抗模态鉴别器。为了解决模态不平衡问题,文中还设计了角度边距调整机制,增强了主要模态的内部紧凑性,并增加了不同模态间的区分度。实验结果表明,该方法在多模态和模态不平衡数据上都取得了最先进的性能。

研究动机

联邦学习被广泛应用于人类活动识别(HAR),能够保护用户隐私,但当前的研究主要集中于单模态或多模态下数据分布相同的场景。然而,在现实中,不同客户端往往拥有不同模态的数据,例如某些客户端可能提供运动传感器数据,而其他客户端则仅提供视频数据。这种模态不一致性增加了建模的难度,基于上述考虑,本文研究了跨模态联合人类活动识别(CM-FHAR)的新任务,其重点是分布式聚合在不同模态的客户端上学习的本地模型,如图 1 所示。

图 1. CM-FHAR © 与传统联合人类活动识别 (FHAR) 任务 (a)、(b) 的比较。

与传统的单模态或多模态 FHAR 任务相比,CM-FHAR 任务至少面临以下三个挑战:

1)如何为具有跨模态异构性的不同客户端分布式构建公共特征子空间。 在CM-FHAR任务中,不同本地客户端的数据总是具有非常不同的结构和内容,例如,传感器信号以三轴值的序列记录,而视频具有更加复杂的空间和时间信息,这导致比传统的联邦 HAR 具有更大的分布异质性。为了同步利用所有客户端上的分布式数据,我们需要为不同客户端学习一个公共子空间,以消除跨模态异构性。这很困难,因为隐私限制阻止我们像传统的跨模态嵌入方法一样将分布式本地数据组织在一起以学习共享特征空间。

2)如何找到有助于区分特定客户端活动的模态相关特征。 在 CM-FHAR 任务中,由于跨模态异质性,不同的客户端可能有不同的判别模式。例如,对于拥有视频数据的客户来说,识别网球拍的视觉模式以正确识别打网球的活动是有用的。然而,这种辨别能力对于具有加速度计或陀螺仪信号的客户端来说是多余的。

3)如何解决模态不平衡问题。 由于数据多样性,从某些设备(例如移动传感器)收集和注释样本总是比从其他设备(例如相机)收集和注释样本更困难,这自然会导致模态不平衡的数据。在这种情况下,可能只有少数本地客户具有稀有模式的标记样本,而主导模式的客户相对丰富,这将为 CM-FHAR 任务带来额外的困难。

论文贡献

  • 新问题定义: 本文首次提出了跨模态联邦人类活动识别问题(CM-FHAR),适用于在不同设备上学习和应用人类活动模型。

  • 模态协作识别网络(MCARN): 设计了一种模态协作的活动识别网络,能够学习模态无关的全局分类器和模态依赖的私有分类器。

  • 角度边距调整机制: 提出了灵活的角度边距调整机制,有效解决了模态不平衡问题,增强了主要模态的紧凑性并增加了模态间的区分度。

  • 关系感知全局-本地校准: 提出了一种关系感知的校准机制,通过全局和本地的配对关系约束,提升了稀有模态分类器的稳定性。

模型框架

图 2. 跨模态联合人类活动识别框架。为简单起见,我们假设该图中存在三种模态(即 M = 3)。在每个本地客户端上,我们首先使用利他编码器 和自我中心编码器 来产生模态不可知特征(即,)和模态特定特征(即,),这些特征进一步用于学习共享活动分类器 ψsc 和私有分类器分别是活动分类器ψpc。采用模态鉴别器 ψmd 来对抗性地指导利他和自我中心编码器的参数学习。服务器接收来自不同客户端的更新的局部模型,并通过加权平均获得全局模型。对于共享活动分类器和模态鉴别器,我们直接聚合来自所有客户端的本地模型的参数。对于利他编码器、自我中心编码器和私有活动分类器,我们进行模态感知聚合,以使具有相同模态的客户端共享参数。

MCARN网络包括模态无关编码器(altruistic encoder)、模态特定编码器(egocentric encoder)、全局共享分类器和私有分类器,以及一个模态判别器。整个框架通过联邦学习进行训练,包含本地更新和全局聚合两个交替步骤:

  1. 模态无关特征学习: 使用模态无关编码器将输入嵌入模态不可知的特征空间。

  2. 模态特定特征学习: 使用模态特定编码器获取模态依赖的特征表示。

  3. 模态判别器: 通过对抗学习的方式,引导模态无关编码器和模态特定编码器的参数学习。

  4. 角度边距调整: 对模态不平衡的数据应用边距调整机制,增强主要模态的内部紧凑性并增加模态间差异。

  5. 全局-本地校准: 通过约束共享分类器和私有分类器的类级配对关系,提升稀有模态下的私有分类器的稳定性。

损失函数

  • 模态判别损失:

  • 角度边距调整损失:

  • 关系感知校准损失:

实验结果

本文在四个公共数据集上进行了广泛实验,验证了MCARN的有效性:

  • 数据集: 实验使用了Epic-Kitchens、Multimodal-EA、Stanford-ECM和Ego-Exo-AR等数据集。

  • 结果: MCARN在所有数据集上均优于现有的最先进方法,特别是在模态不平衡的情况下表现尤为突出。该方法能够有效减少不同模态间的异构性,并提高少数模态的识别性能。实验还包括了消融研究,展示了各模块的有效性。

表 I 在四个数据集上与最先进方法的比较结果

表 III 在四个数据集上的消融实验

图 3.(a)Epic-Kitchens、(b)Multimodal-EA、(c)Stanford-ECM、(d)Ego-Exo-AR 上不同模态失衡率的实验结果(所有模态的平均值)。ADJl 表示对数调整,ADJa 表示角度裕度调整,CAL 表示关系感知全局局部校准。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值