【CVPR2023】KERM:面向视觉语言导航的知识增强推理

文章提出KERM模型,利用知识库中的事实信息增强智能体的导航能力。KERM包含净化、事实感知交互和指令引导的聚合模块,能自动选择关键线索,提高动作预测准确性。实验在REVERIE、R2R和SOON数据集上验证了其有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

3f322b48c57713c43a4fed1023bb3e37.png

来源:专知
本文为论文介绍,建议阅读5分钟本文提出了一种知识增强的推理模型(knowledge Enhanced Reasoning Model, KERM)来利用知识来提高智能体的导航能力。

fd3eb19d24e01feee8e485cb50984cba.png

视觉-语言导航(VLN)是使具身智能体在真实场景中按照自然语言指令导航到远程位置的任务。以往的方法大多利用整个特征或以对象为中心的特征来表示可导航的候选特征。然而,这些表示不足以使智能体执行动作以到达目标位置。由于知识提供了与可见内容相补充的重要信息,本文提出了一种知识增强的推理模型(knowledge Enhanced Reasoning Model, KERM)来利用知识来提高智能体的导航能力。具体来说,首先从构建的知识库中检索基于局部区域的导航视图的事实(即语言描述的知识);检索到的事实范围从单个对象的属性(如颜色、形状)到对象之间的关系(如动作、空间位置),为VLN提供了重要信息。进一步提出了KERM,包含净化、事实感知交互和指令引导的聚合模块,以集成视觉、历史、指令和事实特征。所提出的KERM可以自动选择和收集关键和相关的线索,获得更准确的动作预测。在REVERIE、R2R和SOON数据集上的实验结果验证了所提方法的有效性。源代码可以在https://github.com/XiangyangLi20/KERM上找到。

ee4093d5a140b1d55af21821a088b51f.png

74346e0719cf0ce5fb8b37b6027b9241.png

《RSMA与速率拆分在有限反馈通信系统中的MMSE基预编码实现》 本文将深入探讨RSMA(Rate Splitting Multiple Access)技术在有限反馈通信系统中的应用,特别是通过MMSE(Minimum Mean Square Error)基预编码进行的实现。速率拆分是现代多用户通信系统中一种重要的信号处理策略,它能够提升系统的频谱效率和鲁棒性,特别是在资源受限和信道条件不理想的环境中。RSMA的核心思想是将用户的数据流分割成公共和私有信息两部分,公共信息可以被多个接收器解码,而私有信息仅由特定的接收器解码。这种方式允许系统在用户间共享信道资源,同时保证了每个用户的个性化服务。 在有限反馈通信系统中,由于信道状态信息(CSI)的获取通常是有限且不精确的,因此选择合适的预编码技术至关重要。MMSE预编码是一种优化策略,其目标是在考虑信道噪声和干扰的情况下最小化期望平方误差。在RSMA中,MMSE预编码用于在发射端对数据流进行处理,以减少接收端的干扰,提高解码性能。 以下代码研究RSMA与MMSE预编码的结合以观察到如何在实际系统中应用RSMA的速率拆分策略,并结合有限的反馈信息设计有效的预编码矩阵。关键步骤包括: 1. **信道模型的建立**:模拟多用户MIMO环境,考虑不同用户之间的信道条件差异。 2. **信道反馈机制**:设计有限反馈方案,用户向基站发送关于信道状态的简化的反馈信息。 3. **MMSE预编码矩阵计算**:根据接收到的有限反馈信息,计算出能够最小化期望平方误差的预编码矩阵。 4. **速率拆分**:将每个用户的传输信息划分为公共和私有两部分。 5. **信号发射与接收**:使用预编码矩阵对信号进行处理,然后在接收端进行解码。 6. **性能评估**:分析系统吞吐量、误码率等性能指标,对比不同策略的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值