[MWC 2021] AI-Enabled Cross-Modal Communications

最新推荐文章于 2024-01-09 09:03:03 发布

sinat_38007523

最新推荐文章于 2024-01-09 09:03:03 发布

阅读量423

点赞数

分类专栏：其他论文笔记文章标签：人工智能

本文链接：https://blog.csdn.net/sinat_38007523/article/details/127419755

版权

论文笔记同时被 2 个专栏收录

39 篇文章 3 订阅

订阅专栏

其他

8 篇文章 1 订阅

订阅专栏

南邮
发表于：IEEE Wireless Communications ( Volume: 28 , Issue: 4 , August 2021 )
原文

摘要

协同传输音、视、触信号 --> 跨模态通信

联邦学习：解决多模态服务的沉浸式体验描述中的稀疏数据收集和隐私保护问题。
强化学习：构建缓存、通信和计算的联合优化框架，实现音频、视觉和触觉流的协同传输
迁移学习：提取、迁移和融合来自不同模态的知识、语义和特征，恢复损坏的信号并提升接收端的渲染效果

引入

多模式服务的挑战

多模式服务的沉浸式体验难以表征.
动态环境下的跨模式流协同传输难以实现
接收信号的综合信号处理机制尚未构建

联邦学习

与需要从客户端收集数据并将其存储在云或边缘服务器上的集中学习不同，联邦学习可以在数据分布在终端上的同时学习全局模型。
换句话说，它通过以分散的方式进行模型训练并将数据保存在生成数据的位置，从而利用了终端处理能力和未开发的私有数据。
应用：解决金融和医疗领域场景中分布式和安全的信息共享问题
在这里插入图片描述

影响因素

客观的IFs：

模态渲染 IF
包含有关听觉、视觉和触觉通道的渲染质量。听觉和视觉通道质量指标对我们来说很熟悉。对于触觉通道渲染质量，它包括刚度、粗糙度、加速度、光谱时间相似度等指标。
网络条件 IF
触觉流的质量对延迟和丢包很敏感
视觉-音频流的质量对数据速率很敏感。
同步 IF
关系到多模态渲染和接收的同步程度。前者表示属于相同内容的模态渲染质量的差异程度。后者表示接收到的音频、视觉和触觉流的到达时间和顺序的区分程度。

主观IFs
包含个人的兴趣、满意度、耐力等，并与他们的生理和心理状态有关。
虽然可以通过使用其他“相似”用户的行为记录来解决，
但几乎所有人都担心潜在的隐私泄露，不愿意分享他们的行为。

联邦 Qoe 建模

考虑到联邦学习的特点和优势，我们认为它适合进行主观中频提取和进一步的 QoE 建模。具体来说，联邦QoE建模大致可以分为以下几个阶段，如图2所示。

本地计算
每个客户（个人）建立其行为记录和隐含的主观 IF 之间的关系。这种关系可以用一些因果图模型来描述，并且可以从构建的图模型中导出代表行为内在特征的中间变量。然后，客户端只加密这些本地中间变量并将其传递给（边缘）服务器。
全球聚合
服务器安全地聚合来自具有相似兴趣或习惯的固有相关客户端的所有局部中间变量，获得全局变量。然后，它将全局变量传递回所有相关的客户端。
主观推理
当每个客户端从服务器接收并解密全局变量时，它可以通过因果推理方法从全局变量以及本地行为记录中推断出其主观IF。这个过程可以重复很多次。

通过信息交换和联合协作，借助“相似”个体的行为，可以有效解决单个客户端的数据稀疏问题。同时，只传递加密的中间变量，不传递原始的行为记录，可以可靠地实现隐私保护。

强化学习

agent可以观察环境，定期做出决策，并自动调整其策略以实现最佳策略或奖励。
深度强化学习或宽度强化学习，可以进一步提高系统性能。
应用：在无线通信和网络领域，解决动态环境中复杂的网络优化、安全边缘缓存和卸载等挑战。
在这里插入图片描述

传输模式

在多模式流的传输过程中，缓存和计算范式的转变需要从云端向边缘服务器转变。
一般来说，可以选择三种主要模式，如下所列。

模式 I（基于 MEC 的缓存-g）:边缘服务器处理其缓存的流并将特定流直接传输到目标客户端。
模式II（D2D）：允许范围内的客户端通过设备到设备（D2D）通信技术在彼此之间直接传输流。流的计算和处理在目标客户端中执行。
模式 III（基于 MEC 的计算卸载）：源客户端将特定流卸载到边缘服务器。边缘服务器接收到流后，执行所需的计算，然后将处理后的结果传输给目标客户端。

缓存、通信和计算建模

迁移学习

迁移学习旨在利用来自相关源域的知识来提高学习性能或在许多场景中最小化目标域中所需的标记示例的数量。
关键问题：充分挖掘和利用源域和目标域之间的相关性。
应用：计算机视觉、交通、医疗和生物信息学等收集足够的训练数据是昂贵耗时的
在这里插入图片描述

未来方向

1. 综合感官体验描述

当前的多模态服务只关注听觉、视觉和触觉对个人沉浸式体验的影响。
未来加入嗅觉和味觉时，需要进一步研究。

2. 轻量级跨模式语义传输

利用模态之间的潜在相关性，可以设计跨模式编码以降低数据速率并保持多模式流的保真度。
用语义传输代替流传输

3. 组合跨模态信号处理

人工智能+人类智能

sinat_38007523

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[MWC 2021] AI-Enabled Cross-Modal Communications

协同传输音、视、触信号 --> 跨模态通信联邦学习：解决多模态服务的沉浸式体验描述中的稀疏数据收集和隐私保护问题。强化学习：构建缓存、通信和计算的联合优化框架，实现音频、视觉和触觉流的协同传输迁移学习：提取、迁移和融合来自不同模态的知识、语义和特征，恢复损坏的信号并提升接收端的渲染效果。
复制链接

扫一扫

专栏目录