1.Embodied Artificial Intelligence: Enabling the Next Intelligence Revolution具身人工智能:实现下一次智能革命
- 期刊:IOP Conference Series: Materials Science and Engineering
- 原文链接:Embodied Artificial Intelligence: Enabling the Next Intelligence Revolution - IOPscience
- 摘要:长久以来,关于人类心智对身体的控制程度以及身体对心智的反作用一直存在争论。如今,这场争论仍激发着人们深入探究人类和动物智能、适应性行为本质的强烈科学愿望。为了进一步了解智能并探索我们的大脑和身体如何通过与世界的物理互动而发展,具身智能将人类身体这一物理实体置于这一主题的核心位置。在人工智能和机器学习的时代,具身智能研究仍然非常重要,因为它能够提供有价值的输入,从而增强传统人工智能技术的影响。具身智能为当前依赖大量数据和可靠输出的人工智能技术提供了潜在的解决方案,而这些输出又依赖于与人类用户(无论是个体还是群体)紧密相关的不确定、无结构的任务和情境。在接下来的章节中,我们将讨论这一跨学科领域内的当前趋势和方向,以及未来面临的挑战和机遇。
2.Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method具身 AI 增强车载网络:一种集成的大型语言模型和强化学习方法
- 原文链接:[2501.01141] Embodied AI-Enhanced Vehicular Networks: An Integrated Large Language Models and Reinforcement Learning Method
- 摘要:本文通过集成用于语义信息提取的大型语言模型 (LLM) 和用于决策的深度强化学习 (DRL) 来研究嵌入式 AI 增强车辆网络中的自适应传输策略。所提出的框架旨在通过制定一个包含 Weber-Fechner 定律的优化问题来优化数据传输效率和决策准确性,作为平衡带宽利用率和体验质量 (QoE) 的指标。具体来说,我们采用大型语言和视觉助手 (LLAVA) 模型从具体 AI 代理(即车辆)捕获的原始图像数据中提取关键语义信息,将传输数据大小减少约 90% 以上,同时保留车辆通信和决策的基本内容。在动态车辆环境中,我们采用基于广义优势估计的近端策略优化 (GAE-PPO) 方法来稳定不确定性下的决策。仿真结果表明,来自 LLAVA 的注意力图突出了模型对相关图像区域的关注,从而提高了语义表示的准确性。此外,与 DDPG 相比,我们提出的传输策略将 QoE 提高了 36%,并与纯 PPO 相比,通过减少高达 47% 的所需步骤来加速收敛。进一步分析表明,调整语义符号长度可以在传输质量和带宽之间进行有效的权衡,当从 4 辆车扩展到 8 辆车时,QoE 提高了 61.4%。
整体流程
LLAVA将捕获的图像处理成语义信息
采用GAEPPO算法的Actor-critic Framwork
3.AI-assisted flexible electronics in humanoid robot heads for natural and authentic facial expressions人形机器人头部中的 AI 辅助柔性电子设备,可实现自然和真实的面部表情
期刊:Innovation (Camb) (impact factor: 33.2) 1 区
摘要:在类人机器人中实现自然和真实的面部表情是一个具有挑战性和突出的研究领域,涵盖跨学科领域,包括机械设计、传感和驱动控制、心理学、认知科学、柔性电子学、人工智能 (AI) 等。我们追溯了用于面部表情的人形机器人头部的最新发展,讨论了用于面部表情识别和生成的具身人工智能和柔性电子设备的主要挑战,并强调了该领域的未来趋势。开发具有自然真实面部表情的人形机器人头部需要在多模态传感、情感计算和人机交互 (HRI) 等跨学科领域进行合作,以推进人形机器人的情感拟人化,弥合人形机器人与人类之间的差距,实现无缝 HRI。
设计具有自然真实面部表情的人形机器人头部的方案
4.Transforming urban waste collection inventory: AI-Based container classification and Re-Identification转变城市垃圾收集清单:基于 AI 的容器分类和重新识别
期刊:Waste Manag (impact factor: 7.1) 2 区
摘要:垃圾元素清单的自动化系统奠定了基础。我们的主要贡献是尽我们所能开发了第一个使用人工智能和计算机视觉的城市垃圾元素重新识别系统,该系统结合了来自分类模块和地理定位上下文的信息,以提高后处理性能。此重新标识系统通过根据视觉相似性确定新图像是否与库存中的现有元素匹配,或者如果不匹配,则将其添加为新标识(新类或现有类的新标识),从而帮助创建和更新清单。这样的系统对地方当局和废物管理公司来说可能非常有价值,可以提供更好的设施维护、地理定位和其他应用程序。这项工作还通过探索持续学习策略来使预训练系统适应具有不同城市元素的新环境,从而解决了城市环境和废物管理要素的动态性质。实验结果表明,所提出的系统在各种集装箱类型和城市布局中都能有效运行。这些发现通过在西班牙两个不同的地点(“城市”和“校园”)进行测试而得到验证,这些地点在规模、照明条件、季节、城市设计和集装箱外观方面有所不同。对于最终的重新识别系统,基线系统在简单场景中达到 53.18 mAP(平均精度均值),而在复杂场景中为 21.54 mAP,并且具有额外的挑战性看不见的可变性。结合所提出的后处理技术显著改善了结果,在简单和复杂场景中分别达到 74.14 mAP 和 71.75 mAP。
主要解决问题:物体识别系统的泛化性和可持续性
主要解决思路
主要是持续学习策略和重识别
持续学习策略(Continual Learning Strategies,CL):使用经验回访(Experience Replay,ER),ER通过将先前的经验(即历史数据)存储在内存缓冲区中,并从这些经验中采样来训练模型,而不是仅仅依赖于最新的数据。这种策略有助于防止灾难性遗忘(Catastrophic Forgetting)(模型在学习新任务时忘记之前学到的知识)。但ER可能需要大量额外的内存并增加计算量。
重识别系统(Re-Identification):使用泛化性高的PAT(the Part-Aware Transformer),transformer编码器用于图像分类的特征提取器。全局特征使用 Global Attention 模块提取,其他局部信息通过 Part-Aware Attention 模块提取。这两组特征都由前馈网络 (FFN) 处理。然后在跨 ID 相似性学习 (Cross-ID Similarity Learning,CSL) 模块中使用本地信息,其中自我监督代理任务比较来自不同图像的局部特征,以对常见特征进行分组,并使用 Softmax 聚类损失 (Lpi) 分离判别性特征。CSL 模块的输出用于计算软标签,软标签与硬标签和预测一起用于计算交叉熵损失 (Ls)。部分引导的自提取模块(Part-guided Self-Distilation)使用 FFN 输出进行类预测,应用具有软边距的三元组损失 (Ltri)来限制正(相同身份)和负(不同身份)样本之间的距离。
5.Assessment of CNNs, transformers, and hybrid architectures in dental image segmentation牙科图像分割中 CNN、Transformer 和混合架构的评估
期刊:Journal of Dentistry(IF: 4.8) 2 区
摘要:目标:卷积神经网络 (CNN) 长期以来一直主导牙科图像分析,在一系列不同的任务中取得了显着的成果。然而,最初为自然语言处理提出的基于 Transformer 的架构也有望用于牙科图像分析。本研究旨在比较 CNN 与 Transformers 在牙科中不同的图像分析任务。方法:比较两个 CNN (U-Net、DeepLabV3+)、两个 Hybrids (SwinUNETR、UNETR) 和两个基于 Transformer 的架构 (TransDeepLab、SwinUnet) 在不同图像模态的三个牙科分割任务上。数据集包括 (1) 1881 张用于牙齿分割的全景 X 光片,(2) 1625 个用于牙齿结构分割的咬翼,以及 (3) 2689 个用于龋齿病变分割的咬翼。所有模型都使用 5 倍交叉验证进行训练和评估。结果:发现 CNN 在所有三项任务中都明显优于 Hybrids 和基于 Transformer 的架构。(1) 牙齿分割显示 CNN 的平均 SD F1 评分为 0.89±0.009,混合± 0.86±0.015,基于 Transformer 的架构为 0.83±0.22。(2) 在牙齿结构分割中,CNN 的表现也优于 0.85±0.008,而杂交种 0.84±0.005 和 Transformers 0.83±0.011。(3) 发现龋齿病变分割的结果更加明显;CNN 为 0.49±0.031,混合为 0.39±0.072,基于 Transformer 的架构为 0.32±0.039。结论:在不同的牙科数据模态(全景和咬翼 X 光片)上,CNN 在三个分割任务 (牙齿、牙齿结构、龋齿病变) 上明显优于基于 Transformer 的架构及其 Hybrids。临床意义:由于基于深度学习的图像分析是现代牙科的一部分,因此从业者和牙科研究人员应该了解现代模型架构在牙科图像分析方面的优势和局限性。在其他领域表现出最佳性能的模型不一定构成牙科成像目的的最佳选择。
背景介绍
1.CNN 将图像解释为较小区域的网格,这些区域由 CNN 的感受野逐个像素地连续扫描。它侧重于寻找简单的特征(例如,边缘、线条、纹理),然后将它们组合起来以构建更复杂的图案或对象(例如,根管、牙齿、牙本质)。学习模式的层次结构使 CNN 能够有效地处理和解释图像以执行一系列任务。但CNN 带有一系列归纳偏差,例如,假设距离较近的像素比距离较远的像素更相关,或与平移不变性有关,即检测图像中的对象与其位置无关。
-
传达图像的基本概念(模式的层次结构、像素的局部连接、对象位置的不变性),减少计算和内存需求,并降低训练所需的数据量
-
阻碍其灵活性:根据这些假设未捕获的数据模式可能会被模型忽略,无论其重要性如何。
2.transformers采用自注意力机制从整个输入序列中聚合来自文本数据的信息,将图像分成小块并同时将这些块提供给模型,从而允许模型一次捕获整个图像。基于此,基于 Transformer 的架构可能比 CNN 更灵活,并且可能更强大。但Transformer 通常需要大规模数据集。Transformer 还带来了大量的计算成本和内存消耗。由于处理的是补丁patch而不是像素pixels,因此它们也可能无法捕获精细的本地信息
3.Hybrid architectures可以同时检测细粒度细节并捕获全局上下文以解决潜在任务。