arXiv AI 综述列表(2024.05.20~2024.05.24)

公众号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

每周末更新,完整版进群获取。

Q 群在群文件,VX 群每周末更新。

目录

1. Beyond Traditional Single Object Tracking: A Survey 

2. RGB Guided ToF Imaging System: A Survey of Deep Learning-based Methods 

3. Networking Systems for Video Anomaly Detection: A Tutorial and Survey

4. Dealing Doubt: Unveiling Threat Models in Gradient Inversion Attacks under Federated Learning – A Survey and Taxonomy 

5. Reinforcement learning

6. Automated Radiology Report Generation: A Review of Recent Advances 

7. Efficient Multimodal Large Language Models: A Survey 

8. From Sora What We Can See: A Survey of Text-to-Video Generation 

9. SMP Challenge: An Overview and Analysis of Social Media Prediction Challenge 

10. Application of Artificial Intelligence in Schizophrenia Rehabilitation Management: Systematic Literature Review 

11. A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers

12. Medical Dialogue: A Survey of Categories, Methods, Evaluation and Challenges 

13. SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation 

14. Large Language Model (LLM) for Telecommunications: A Comprehensive Survey on Principles, Key Techniques, and Opportunities

15. A Systematic Review and Meta-Analysis on Sleep Stage Classification and Sleep Disorder Detection Using Artificial Intelligence

16. Safety in Graph Machine Learning: Threats and Safeguards

17. A Comparative Study of Garment Draping Techniques 

18. Review of deep learning models for crypto price prediction: implementation and evaluation

19. Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities 

20. A review on the use of large language models as virtual tutors 

21. Towards Graph Contrastive Learning: A Survey and Beyond 

22. A comprehensive overview of deep learning techniques for 3D point cloud classification and semantic segmentation

23. Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey

24. Transformer in Touch: A Survey 

25. Large Language Models Meet NLP: A Survey 

26. A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges 

27. A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data 

28. Large Language Models for Medicine: A Survey

29. A Survey of Robotic Language Grounding: Tradeoffs Between Symbols and Embeddings 

30. A Survey of Artificial Intelligence in Gait-Based Neurodegenerative Disease Diagnosis 

31. Federated Learning in Healthcare- Model Misconducts, Security, Challenges, Applications, and Future Research Directions -- A Systematic Review 

32. Continual Learning in Medical Imaging from Theory to Practice: A Survey and Practical Analysis 

33. Animal Behavior Analysis Methods Using Deep Learning: A Survey 

34. A Survey on Design-space Dimensionality Reduction Methods for Shape Optimization 

35. A Survey on Vision-Language-Action Models for Embodied AI 


1. Beyond Traditional Single Object Tracking: A Survey 

单目标跟踪是许多关键领域应用中的一项重要任务。然而,它仍然被认为是最具挑战性的视觉任务之一。近年来,计算机视觉,尤其是目标跟踪,见证了许多新技术的引入或采用,开创了性能的新前沿。

在这篇综述中,

  • 我们考察了一些视觉领域的前沿技术,如序列模型(Sequence Models)、生成模型、自监督学习、无监督学习、强化学习、元学习(Meta-Learning)、持续学习和领域适应(Domain Adaptation),重点关注它们在单目标跟踪中的应用。
  • 我们提出了一种基于新技术和趋势的单目标跟踪方法的新分类。
  • 此外,我们对在流行跟踪基准上报告的这些方法的性能进行了比较分析。
  • 此外,我们分析了所介绍方法的优缺点,并提供了单目标跟踪中非传统技术的指南。
  • 最后,我们建议了单目标跟踪未来研究的潜在方向。 

2. RGB Guided ToF Imaging System: A Survey of Deep Learning-based Methods 

将 RGB 相机集成到 ToF(time-of-flight)成像系统中已成为感知现实世界的重要技术。RGB 引导的 ToF 成像系统对多个应用至关重要,包括人脸防伪、显著性检测和轨迹预测。

根据工作范围的距离,RGB 引导的 ToF 成像系统的实现方案有所不同。

  • 具体来说,具有均匀照明场的 ToF 传感器通常用于近距离测量,这些传感器可以输出高密度但低分辨率的深度数据。
  • 而激光雷达则发射激光脉冲,通常用于远距离检测,尽管它们只能捕获稀疏的深度数据。
  • 在这两种情况下,RGB 引导的 ToF 成像的深度质量改进对应于两个子任务:引导深度超分辨率和引导深度补全。

鉴于深度学习最近在这一领域提供的显著提升,

  • 本文全面回顾了与 RGB 引导的 ToF 成像相关的工作,包括网络结构、学习策略、评估指标、基准数据集和目标函数。
  • 此外,我们对当前最先进的方法在广泛使用的基准数据集上的定量比较进行了介绍。
  • 最后,我们讨论了实际应用中的未来趋势和挑战,为进一步研究提供了方向。 

3. Networking Systems for Video Anomaly Detection: A Tutorial and Survey

随着智能城市中监控摄像头的日益普及以及在线视频应用的激增,公众对公共安全和隐私保护的关注不断增加,这推动了自动视频异常检测(Video Anomaly Detection,VAD)成为人工智能(AI)领域的基础研究任务。

随着深度学习和边缘计算的进步,VAD 取得了显著的进展,并与智能城市和视频互联网中的新兴应用协同发展,这已超越了传统的算法工程研究范围,发展成为一个实用的可部署视频异常检测网络系统(Networking Systems for VAD,NSVAD),成为 AI、物联网(IoVT)和计算领域交叉探索的热点。

在本文中,

  • 我们描述了各种深度学习驱动的 VAD 路线的基本假设、学习框架和适用场景,提供了一个全面的教程供 NSVAD 初学者使用。
  • 本文通过回顾最近的进展和典型解决方案,汇总可用的研究资源(例如文献、代码、工具和研讨会),阐明了核心概念。
  • 此外,我们展示了在工业物联网和智能城市中的最新 NSVAD 研究,以及可部署 NSVAD 的端云协同架构,以进一步阐明其潜在的研究和应用范围。
  • 最后,本文预测了未来的发展趋势,并讨论了 AI 和计算技术的融合如何解决现有的研究挑战并促进开放机会,为未来的研究人员和工程师提供了一个有见地的指南。 

4. Dealing Doubt: Unveiling Threat Models in Gradient Inversion Attacks under Federated Learning – A Survey and Taxonomy 

联邦学习(Federated Learning,FL)已成为去中心化、隐私保护的机器学习训练的领先范式。

然而,最近关于梯度反演攻击(gradient inversion attacks,GIA)的研究表明,FL 中的梯度更新可能泄露私人训练样本的信息。虽然现有的 GIA 综述主要集中在诚实但好奇的服务器威胁模型上,但在现实且更具隐私侵害的恶意服务器和客户端情况下的攻击分类研究却很少。

在本文中,

  • 我们提出了一种针对 GIA 的综述和新的分类法,强调了 FL 威胁模型,特别是恶意服务器和客户端的威胁模型。
  • 我们首先正式定义了 GIA,并对比了常规攻击与恶意攻击者。
  • 然后,我们总结了现有的攻击策略、相应的防御措施和评估指标。重要的是,我们深入探讨了恶意服务器和客户端的攻击,强调它们如何突破现有的 FL 防御措施,特别关注重建方法、目标模型架构、目标数据和评估指标。
  • 最后,我们讨论了尚未解决的问题和未来的研究方向。

5. Reinforcement learning

观测天体(celestial objects)并增进我们对它们的科学认知涉及繁琐的规划、安排、数据收集和数据后处理。天文学的许多运行方面由专业天文学家指导和执行。

强化学习是一种机制,通过它我们(作为人类和天文学家)可以教导人工智能代理执行其中的一些繁琐任务。

在本文中,我们将介绍强化学习的最新概况以及它如何有益于天文学。 

6. Automated Radiology Report Generation: A Review of Recent Advances 

对医学成像(medical imaging)的需求不断增加,正在影响放射科医生及时准确报告的能力。

人工智能的最新技术进步在自动放射学报告生成(automatic radiology report generation,ARRG)方面显示了巨大潜力,激发了大量研究。

本文综述了当前 ARRG 方法,方法包括:

  • 评估数据集的特征,如可用性、规模和采用率
  • 审查深度学习训练方法,如对比学习和强化学习
  • 探索最先进的模型架构,包括 CNN 和 transformer 模型的变体
  • 概述通过多模态输入和知识图谱整合临床知识的技术
  • 细致审查当前的模型评估技术,包括常用的 NLP 指标和定性临床审查。

此外,本文分析了所审查模型的定量结果,探讨了表现最好的模型以获得更多见解。

最后,本文指出了潜在的新方向,预测来自其他放射学模态的额外数据集的采用和改进的评估方法将是未来发展的重要领域。 

7. Efficient Multimodal Large Language Models: A Survey 

在过去的一年中,多模态大语言模型(MLLM)在视觉问答、视觉理解和推理等任务中表现出了显著的性能。

然而,模型规模庞大以及高昂的训练和推理成本阻碍了 MLLM 在学术界和工业界的广泛应用。因此,研究高效且轻量化的 MLLM 具有巨大潜力,特别是在边缘计算场景中。

在这篇综述中,

  • 我们对当前高效 MLLM 的现状进行了全面系统的回顾。
  • 我们总结了代表性高效 MLLM 的时间线、高效结构和策略的研究现状以及应用。
  • 最后,我们讨论了当前高效 MLLM 研究的局限性和未来的有前景方向。 

8. From Sora What We Can See: A Survey of Text-to-Video Generation 

随着人工智能取得令人瞩目的成就,它正朝着通用人工智能的方向前进。由 OpenAI 开发的 Sora,具备分钟级世界模拟能力,可以被视为这一发展路径上的一个里程碑。

然而,尽管取得了显著成功,Sora 仍面临着需要解决的各种障碍。

在这篇综述中,

  • 我们从拆解 Sora 在文本到视频生成中的表现出发,进行全面的文献回顾,试图回答 “从 Sora 中我们能看到什么” 这一问题。
  • 具体来说,在介绍基本的通用算法后,我们从三个相互垂直的维度对文献进行分类:进化生成器(evolutionary generators)、卓越追求(excellent pursuit)和真实全景(realistic panorama)。
  • 随后,我们详细整理了广泛使用的数据集和指标。
  • 最后,我们识别了该领域中的若干挑战和未解决的问题,并提出了未来研究和发展的潜在方向。 

9. SMP Challenge: An Overview and Analysis of Social Media Prediction Challenge 

社交媒体流行度预测(Social Media Popularity Prediction,SMPP)是一项关键任务,涉及利用社交媒体平台上大量的多模态数据,自动预测在线帖子未来的流行度值。研究和调查社交媒体流行度对各种在线应用至关重要,需要新颖的综合分析方法、多模态理解和精确预测。

SMP Challenge 是一项年度研究活动,激发了该领域的学术探索。

本文总结了这一挑战任务、数据和研究进展。作为评估和基准预测模型的重要资源,我们发布了一个大规模的 SMPD 基准,涵盖了大约 70,000 用户撰写的约 50 万篇帖子。研究进展分析提供了近年来解决方案和趋势的总体分析。 

10. Application of Artificial Intelligence in Schizophrenia Rehabilitation Management: Systematic Literature Review 

本综述旨在系统评估人工智能(AI)在精神分裂症(schizophrenia)患者康复管理中的现状和前景,以及其对康复过程的影响。

我们从 2012 年至今选取了 70 项研究,重点关注机器学习、深度学习、强化学习及其他技术在心理健康干预和管理中的应用、技术类别、产品和数据类型。结果表明,通过分析生态瞬时评估、行为和语音数据,AI 可以广泛用于症状监测、复发风险预测和康复治疗。

本文进一步探讨了基于 AI 的新兴产品、技术和分析方法(如社交媒体分析、严肃游戏(serious games)和大型语言模型)在康复中的潜在挑战和未来方向。

11. A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers

大语言模型(LLM)的快速发展在自然语言处理方面展现了卓越的多语言能力,吸引了学术界和工业界的广泛关注。为了减少潜在的歧视并增强对不同语言用户群体的整体可用性和可访问性,开发语言公平的技术显得尤为重要。

尽管 LLMs 取得了突破性进展,但对多语言场景的研究仍然不足,亟需一份全面的综述来总结最新的方法、发展、局限性和潜在的解决方案。

为此,我们从多个角度对 LLM 在多语言场景中的利用进行了综述。

  • 我们首先重新思考了前沿和当前关于预训练语言模型研究的转变。
  • 然后,我们介绍了 LLM 的多语言性,包括训练和推理方法、模型安全性、多领域的语言文化以及数据集的使用。
  • 我们还讨论了在这些方面出现的主要挑战及其可能的解决方案。
  • 此外,我们强调了旨在进一步增强 LLM 多语言能力的未来研究方向。

12. Medical Dialogue: A Survey of Categories, Methods, Evaluation and Challenges 

本文综述并整理了关于医疗对话系统(medical dialog systems)的研究工作,这是一个重要但具有挑战性的任务。

  • 尽管在医疗界已经从应用角度对这些系统进行了调查,但迄今为止,从严格的技术角度进行的系统性审查却明显缺乏。
  • 因此,医疗对话系统的类别、方法和评估的概述仍然有限且不明确,阻碍了该领域的进一步改进。
  • 为填补这一空白,我们调查了来自著名计算机科学和自然语言处理会议及期刊的 325 篇论文,并进行了概述。

13. SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation 

组合泛化(Compositional generalization)是语言模型的一项重要能力,具有多种不同的表现形式。

对于数据到文本生成,以往研究在该能力上的关注仅限于一种称为系统性(Systematicity)的表现形式,且缺乏对大型语言模型(LLM)的考虑,这不足以完全覆盖实际应用场景。

在这项工作中,我们提出了 SPOR,一种全面且实用的用于数据到文本生成中组合泛化的评估方法。

  • SPOR 包括四个表现方面(系统性、生产力、顺序不变性和规则可学习性,Systematicity, Productivity, Order invariance, and Rule learnability),并允许基于现有数据集进行高质量评估,无需额外的人工注释。
  • 我们在两个不同的数据集上演示了 SPOR,并评估了一些现有的语言模型,包括大型语言模型。
  • 我们发现这些模型在评估的各个方面都存在不足,亟需进一步改进。

SPOR: 

  • Systematicity:处理在训练期间未见过的数据组合的能力。
  • Productivity:处理样本中比训练期间见过的更多数据量的能力。
  • Order invariance:当输入数据的顺序在一个无序集合中改变时,能够保持输出文本的忠实性和适当的数据顺序的能力。
  • Rule learnability:学习并应用复制规则进行生成的能力,而不是记住特定的映射关系。

14. Large Language Model (LLM) for Telecommunications: A Comprehensive Survey on Principles, Key Techniques, and Opportunities

大型语言模型(LLM)因其出色的理解和推理能力,近期受到了广泛关注,并在许多领域取得了巨大进展。LLM 技术的进步也为自动化许多电信领域的任务提供了有前景的机会。经过预训练和微调后,LLM 可以根据人类指令执行各种下游任务,为实现支持人工通用智能(artificial general intelligence,AGI)的 6G 铺平了道路。

鉴于 LLM 技术的巨大潜力,本工作旨在提供 LLM 支持的电信网络的全面概述。

  • 我们首先介绍了 LLM 的基础知识,包括模型架构、预训练、微调、推理和利用、模型评估以及电信部署。
  • 然后,我们介绍了 LLM 支持的关键技术和电信应用,包括生成、分类、优化和预测问题。具体来说,LLM支持的生成应用包括电信领域知识、代码和网络配置的生成。
  • 接下来,基于 LLM 的分类应用涉及网络安全、文本、图像和流量分类问题。
  • 此外,我们介绍了多种 LLM 支持的优化技术,如强化学习的自动奖励函数设计和语言强化学习。LLM 辅助的预测问题方面,我们讨论了时间序列预测模型和电信中的多模态预测问题。
  • 最后,我们强调了 LLM 支持的电信网络的挑战,并确定了未来的研究方向。

15. A Systematic Review and Meta-Analysis on Sleep Stage Classification and Sleep Disorder Detection Using Artificial Intelligence

睡眠对于人们的身心健康至关重要,充足的睡眠可以帮助人们集中精力进行日常活动。因此,一项包含睡眠模式和睡眠障碍的睡眠研究对于增进我们了解个体健康状况至关重要。

过去的发现依赖于多导睡眠图 (polysomnography,PSG) 和自我报告措施,然后由专家医师进行临床评估。然而,随着人工智能 (AI) 应用的兴起,睡眠阶段分类和睡眠障碍评估过程变得更加便捷,许多研究聚焦于各种数据集,利用先进的算法和技术提供改进的计算便捷性和准确性。

本研究旨在提供近期文献的全面系统回顾和分析,以分析睡眠研究中不同方法及其成果,其中包括使用人工智能进行的“睡眠阶段分类”和“睡眠障碍检测”研究。

  • 在这篇综述中,最初从不同期刊中筛选了 183 篇论文,其中 80 篇论文被纳入详细评审范围,涵盖 2016 年至 2023 年间的研究。
  • 脑电波是最常用的睡眠阶段和障碍研究身体参数(近 29% 的研究仅使用脑活动信号,77% 与其他信号结合使用)。
  • 在 34 种不同的 AI 模型中,卷积神经网络 (CNN) 是使用最广泛的,占比 27%。其他模型包括长短期记忆网络 (LSTM)、支持向量机 (SVM)、随机森林 (RF) 和循环神经网络 (RNN),依次占 11%、6%、6% 和 5%。
  • 在性能指标方面,准确率(accuracy)被广泛使用,最高达 83.75%;F1 值为 45%;Kappa 为 36.25%;灵敏度(Sensitivity)为 31.25%;特异性(Specificity)为 30%,以及其他指标。

16. Safety in Graph Machine Learning: Threats and Safeguards

近年来,图机器学习 (Graph Machine Learning, Graph ML) 取得了巨大进展。得益于其处理图结构数据的卓越能力,Graph ML 技术被广泛应用于各种领域,其中包括金融、医疗、交通等关键领域。

尽管 Graph ML 技术带来了社会效益,但近期研究表明,广泛使用 Graph ML 模型存在着重大安全隐患。缺乏安全导向的设计可能会导致模型产生不可靠的预测,泛化能力不足,并危及数据保密性。在金融欺诈检测等高风险场景中,这些漏洞会危及个人和整个社会安全。因此,当务之急是优先开发安全导向的 Graph ML 模型,以降低这些风险并增强公众对其应用的信心。

在这篇综述性论文中,

  • 我们探索了三个对提高 Graph ML 安全性至关重要的方面:可靠性、泛化能力和保密性(reliability, generalizability, and confidentiality)。
  • 我们将针对这些方面可能面临的威胁进行分类和分析,这些威胁主要来源于模型、数据和攻击三个方面。这种新颖的分类法将指导我们审查有效的防御策略。
  • 我们进行的系统性综述为未来研发实用、安全导向的 Graph ML 模型奠定了基础。
  • 此外,我们强调了安全 Graph ML 实践的重要性,并提出了该关键领域未来研究的前景展望。

17. A Comparative Study of Garment Draping Techniques 

我们将提供一份对比评审,评估用于 3D 时尚设计、虚拟试衣和动画的服装剪裁(garment draping)技术。

本文比较用于人体服装剪裁(garment draping)的各种方法。

  • 这些方法包括许多模型,例如基于物理和机器学习的技术、碰撞处理等等。
  • 性能评估和权衡取舍将进行讨论,以确保在选择最合适的服装悬垂方式时做出明智的决策。
  • 这些方法旨在准确表示服装的变形和细纹,同时考虑数据需求和效率因素,以产生逼真的效果。
  • 这项研究可以为研究人员、设计师和开发者可视化动态的多层 3D 服装提供深刻见解。 

18. Review of deep learning models for crypto price prediction: implementation and evaluation

深度学习模型是一种杰出的机器学习技术,已经改变了各个领域,并展示了其在金融和经济领域方面的潜力。

尽管已经探索了各种深度学习模型用于加密货币价格预测(cryptocurrency price forecasting),但由于市场波动性大,尚不清楚哪些模型适用。

在这项研究中,我们回顾了有关深度学习用于加密货币价格预测的文献,并评估了用于加密货币股价预测的新型深度学习模型。

  • 我们的深度学习模型包括长短期记忆 (LSTM),循环神经网络(RNN)的变体、卷积神经网络 (CNN) 的变体以及 Transformer 模型。
  • 我们评估了用于加密货币收盘价的多步预测的单变量和多变量方法。我们的结果表明,单变量 LSTM 模型变体在加密货币预测方面表现最佳。
  • 我们还对四种加密货币进行了波动性分析,结果显示其价格在整个 COVID-19 大流行期间出现大幅波动。
  • 此外,我们研究了使用不同训练集确定的两种场景的预测准确率。首先,我们使用 COVID-19 之前的数据集来模拟 COVID-19 早期期间的加密货币收盘价预测。其次,我们利用 COVID-19 期间的数据来预测 2023 年至 2024 年的价格。

19. Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities 

针对当前有关大型语言模型 (LLM) 是否达到接近人类智能水平的争论,本研究引入了一个评估社会智能的基准,这是人类认知最具特色的方面之一。

  • 我们为社会动态(social dynamics)开发了一个综合的理论框架,并引入两种评估任务:逆向推理 (Inverse Reasoning,IR) 和逆向逆向计划 (Inverse Inverse Planning,IIP)。
  • 我们的方法还包含了一个基于递归贝叶斯推理的计算模型,该模型擅长阐明多样化的人类行为模式。大量实验和详细分析表明,人类在整体性能、零样本学习、单样本泛化和适应多模态方面均优于最新的 GPT 模型。
  • 值得注意的是,GPT 模型仅在最基本的层次 (order = 0) 上表现出社会智能,这与人类社会智能 (order ≥ 2) 形成鲜明对比。进一步的检查表明,大型语言模型倾向于依赖模式识别来捷径解决问题,这让人怀疑它们是否具备真正的人类级社会智能。 

20. A review on the use of large language models as virtual tutors 

Transformer 架构是近期自然语言处理领域最重要的变化之一,它有助于管理长程依赖关系。这些架构是创新型、前沿的大语言模型 (LLM) 的基础,这些模型在许多领域和行业引起了巨大轰动,其中教育领域尤为突出。因此,这些基于生成式人工智能的解决方案正引领着教学方法和内容的革新,以及网络基础设施的变革,朝着高质量学习的方向发展。

鉴于 LLM 的普及,这篇综述旨在全面概述那些专为生成和评估教育材料而设计的解决方案,并让学生和教师参与到其设计或实验计划中。

这些系统最常见的作用是作为自动生成问题的虚拟导师。此外,最流行的模型是 GPT-3 和 BERT。

21. Towards Graph Contrastive Learning: A Survey and Beyond 

近年来,深度学习在图(graph)上的应用取得了巨大成功。然而,由于标注图数据(graph data)的昂贵成本和耗时的人工标注,对它们的依赖仍然是一个瓶颈。

为了解决这个挑战,图自监督学习 (SSL) 越来越受到关注并取得了显著进展。自监督学习使机器学习模型能够从非标注的图数据中生成信息丰富的表示,从而减少对昂贵的标注数据的依赖。

虽然图自监督学习已经被广泛采用,但其中一个关键组件 - 图对比学习 (Graph Contrastive Learning,GCL) - 在现有的文献中并没有被深入研究。

因此,本综述旨在通过提供一份关于 GCL 的专门综述来填补这一空白。

  • 我们将全面概述 GCL 的基本原理,包括数据增强策略、对比模式和对比优化目标。
  • 此外,我们还将探讨 GCL 在数据高效图学习的其他方面的扩展,例如弱监督学习、迁移学习以及相关场景。
  • 我们还将讨论涵盖药物发现、基因组分析、推荐系统等领域的实际应用,并最后概述该领域的挑战和未来发展方向。

22. A comprehensive overview of deep learning techniques for 3D point cloud classification and semantic segmentation

点云分析在许多领域拥有广泛的应用,例如计算机视觉、机器人操作和自动驾驶。尽管深度学习在基于图像的任务上取得了显著的成功,处理庞大、无序、不规则和嘈杂的 3D 点云数据时,深度神经网络仍面临许多独特的挑战。

为了刺激未来的研究,本文分析了用于点云处理的深度学习方法的最新进展,并提出了推动该领域发展的挑战和潜在方向。本文综述了 3D 点云处理的两大主要任务:3D 形状分类和语义分割。 

23. Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey

预测性维护(Predictive Maintenance,PdM)已成为工业 4.0 的支柱之一,并且对提高运营效率至关重要,能够最大限度地减少停机时间,延长设备寿命并防止故障。

使用人工智能(AI)方法可以执行广泛的 PdM 任务,这些方法通常使用工业传感器生成的数据。钢铁行业是全球经济的重要分支,是这一趋势的潜在受益者之一,因为它具有巨大的环境足迹、全球化的市场性质以及苛刻的工作条件。

本调查综述了钢铁行业中基于 AI 的 PdM 领域的现有知识,针对研究人员和从业者。

  • 我们识别了 219 篇与此主题相关的文章,并制定了五个研究问题,使我们能够从全球角度了解当前的趋势和主要的研究差距。
  • 我们审查了接受 PdM 的设备和设施,确定了常见的 PdM 方法,并识别了开发这些解决方案所使用的 AI 方法的趋势。
  • 我们探讨了被调查文章中使用的数据特征,并评估了所展示研究的实际影响。大多数研究集中在高炉或热轧,使用工业传感器的数据。当前趋势显示该领域的兴趣日益增加,尤其是在深度学习的使用上。
  • 主要挑战包括在生产环境中实施所提出的方法,将其纳入维护计划,以及提高研究的可访问性和可重复性。 

24. Transformer in Touch: A Survey 

Transformer 模型最初在自然语言处理领域取得了显著成功,最近在触觉感知(tactile perception)应用中显示出巨大的潜力。

本综述旨在全面概述 Transformer 在触觉技术中的应用和发展。

  • 我们首先介绍 Transformer 成功背后的两个基本概念:自注意力机制和大规模预训练。
  • 然后,我们深入探讨 Transformer 在各种触觉任务中的应用,包括但不限于物体识别、跨模态生成和物体操控,提供核心方法、性能基准和设计亮点的简要总结。
  • 最后,我们提出潜在的研究领域和未来的工作方向,旨在激发社区内更多的兴趣,解决现有的挑战,并鼓励在触觉领域使用 Transformer 模型。 

25. Large Language Models Meet NLP: A Survey 

尽管像 ChatGPT 这样的大型语言模型(LLM)在自然语言处理(NLP)任务中展示了令人印象深刻的能力,但对其在该领域潜力的系统性研究仍然基本未被探索。

本研究旨在通过探讨以下问题来填补这一空白:(1) 目前 LLM 在文献中如何应用于 NLP 任务?(2) 传统的 NLP 任务是否已经通过 LLM 得到解决?(3) LLM 在 NLP 中的未来是什么?

为回答这些问题,我们首先提供了 LLM 在 NLP 中的综合概述。

  • 具体而言,我们首先引入一个统一的分类法,包括参数冻结应用(Parameter-frozen application)和参数调优应用(Parameter-tuning application),以提供一个理解 LLM 在 NLP 中当前进展的统一视角。
  • 此外,我们总结了新的前沿领域及其相关挑战,旨在激发进一步的突破性进展。

26. A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges 

近年来,多模态机器翻译(multi-modal machine translation)由于其卓越的性能在学术界和工业界引起了极大的关注。它将文本和视觉模态作为输入,利用视觉上下文来解决源文本中的歧义。

本文

  • 首先提供了 99 篇前人工作的详尽概述,从主流模型、数据集和评估指标的角度全面总结了具有代表性的研究。
  • 随后,我们分析了各种因素对模型性能的影响,并最终讨论了该任务未来的可能研究方向。
  • 随着时间的推移,多模态机器翻译发展出了更多类型以满足不同需求。
  • 与之前仅限于多模态机器翻译早期阶段的综述不同,我们的综述从不同方面全面总结了这些新兴类型,以便为研究人员提供对其当前状态的更好理解。 

27. A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data 

自动放射报告生成(Automatic radiology report generation)可以减轻医生的工作负担并减少医疗资源的区域差异,因此成为医学图像分析领域的重要课题。这是一项具有挑战性的任务,因为计算模型需要模仿医生,从多模态输入数据(如医学图像、临床信息、医学知识等)中获取信息,并生成全面且准确的报告。

近年来,许多基于深度学习的方法,如Transformer、对比学习和知识库构建等,纷纷涌现以解决这一问题。

本文

  • 综述了最新研究中开发的关键技术,并提出了基于深度学习的报告生成的一般工作流程,包括五个主要组件:多模态数据获取、数据准备、特征学习、特征融合/交互和报告生成。每个组件的最先进方法均被重点介绍。
  • 此外,还总结了训练策略、公共数据集、评估方法、当前挑战和该领域的未来方向。
  • 我们还在相同实验设置下对不同方法进行了定量比较。

28. Large Language Models for Medicine: A Survey

为应对数字经济中数字智能领域的挑战,大型语言模型(LLMs)应运而生。计算能力和可用资源的提升显著推进了 LLM 的发展,使其能够融入人类生活的各个领域。

医疗(medical) LLM 是关键的应用工具,具有在各种医疗场景中应用的潜力。

本文回顾了 LLM 的发展,重点关注医疗 LLM 的需求和应用。

  • 我们提供了现有模型的简要概述,旨在探索先进的研究方向,并为研究人员的未来医疗应用提供帮助。
  • 我们强调了医疗 LLM 在应用中的优势以及在开发过程中遇到的挑战。
  • 最后,我们建议了一些技术整合方向,以缓解这些挑战,并提出了未来医疗LLMs的潜在研究方向,以更好地满足医疗领域的需求。 

29. A Survey of Robotic Language Grounding: Tradeoffs Between Symbols and Embeddings 

借助大型语言模型,机器人能够比以往更灵活和更强大地理解语言。

本综述回顾了最近的文献,并将其置于两个极端的光谱中:

  • 语言与某些人工定义的形式表示之间的映射,
  • 语言与直接转化为低级机器人策略的高维向量空间之间的映射。

使用形式表示允许语言的含义被精确表示,限制了学习问题的规模,并为可解释性和正式安全保证提供了框架。将语言和感知数据嵌入高维空间的方法避免了这种手动指定的符号结构,因此在数据充足的情况下具有更大的通用潜力,但需要更多的数据和计算来训练。

我们讨论了每种方法的优缺点,并最终提供了未来工作的方向,旨在实现两者的最佳结合。 

30. A Survey of Artificial Intelligence in Gait-Based Neurodegenerative Disease Diagnosis 

近年来,全球受神经退行性疾病(Neurodegenerative Diseases,ND)影响的人口不断增加,传统上需要大量医疗资源和人力进行诊断和监测。

作为一种关键的疾病相关运动症状,人类步态(Human Gait)可以用于表征不同的 ND。目前人工智能(AI)模型的进步使得自动步态分析成为可能,为 ND 的更快和更具成本效益的诊断开辟了新途径。

本文对基于机器学习和深度学习的 AI 技术在通过步态进行五种典型 ND 诊断中的最新进展进行了全面综述。

  • 我们概述了 AI 辅助 ND 诊断的过程,并对现有的步态数据和 AI 模型进行了系统分类。
  • 通过对 164 项研究的广泛回顾和分析,我们识别并讨论了该领域的挑战、潜在解决方案和未来方向。
  • 最后,我们展望了利用 3D 骨骼数据进行人类步态表示的前景,并开发更高效的 AI 模型用于 ND 诊断。 

31. Federated Learning in Healthcare- Model Misconducts, Security, Challenges, Applications, and Future Research Directions -- A Systematic Review 

由于医疗记录的数字化和数据驱动的医学研究日益增加,数据隐私已成为医疗保健中的主要关注点。保护敏感患者信息免受泄露和未经授权的访问至关重要,因为此类事件可能引发严重的法律和伦理问题。

联邦学习(Federated Learning,FL)通过使多个医疗机构在不共享数据的情况下协同学习,解决了这一问题。FL 在医疗保健(healthcare)中的应用范围涵盖疾病预测、个性化治疗和临床试验研究。然而,实施 FL 面临诸多挑战,包括在非独立同分布(non-IID)数据环境中的模型收敛、通信开销以及管理多机构合作。对FL在医疗保健中的系统性回顾对于评估其在提供隐私保护的同时保持医疗数据分析的完整性和可用性至关重要。

在本研究中,我们分析了现有关于 FL 在医疗保健应用中的文献。

  • 我们探讨了模型安全实践的现状,识别了普遍存在的挑战,并讨论了实际应用及其影响。
  • 此外,该综述还强调了未来研究的有希望方向,以改进 FL 的实施,增强数据安全协议,并扩大 FL 在更广泛的医疗保健应用中的使用,这将惠及未来的研究人员和从业者。

什么是联邦学习?联邦学习(Federated Learning,FL)是一种机器学习(ML)框架,使分布在不同地理位置的客户端能够共同训练共享模型,而无需直接交换本地数据【1】。这一框架解决了客户端之间类别不平衡和非独立同分布(non-IID)数据分布等问题。这些问题会导致 “客户端漂移” 问题,从而导致收敛速度变慢和模型性能不佳【2】。通过定期重新分发模型更新和采用自适应自蒸馏和数据协调等方法,FL 在保持数据隐私和安全的分布式环境中改进了模型训练。

FL 的应用领域有哪些?由于 FL 在训练模型时能保持数据安全性,其受欢迎程度日益提高。在多个应用领域中,FL 正在做出重要贡献。

  • 在医疗保健领域,FL 使医院能够在不共享敏感患者数据的情况下协同分析数据,从而改进诊断模型【3】。
  • 金融机构利用 FL 进行欺诈检测和信用评分,同时确保客户数据的机密性【4】。
  • 在智能设备中,FL 通过在本地训练模型,实现个性化推荐和智能手机上的预测文本。
  • 自动驾驶汽车通过在车队之间共享模型更新,以增强物体检测和驾驶行为预测。
  • 在网络安全领域,FL 有助于检测分布式网络中的异常,
  • 在物联网(IoT)中,FL 促进了设备管理和预测性维护【5】。
  • 总之,FL在各个行业中,由于其在确保数据隐私的同时能够有效训练模型,具有重要价值。

32. Continual Learning in Medical Imaging from Theory to Practice: A Survey and Practical Analysis 

深度学习在重塑医学影像(reshaping medical imaging)方面表现出巨大的成功,但它面临着众多阻碍其广泛应用的挑战。

持续进化的数据流中的灾难性遗忘和分布变化等问题,加大了研究与应用之间的差距。持续学习通过使神经网络能够在不忘记先前学习内容的情况下顺序获取新知识,有望解决这些障碍。

本文全面回顾了在医学领域中关于持续学习的最新文献,突出近期趋势并指出实际问题。

  • 具体而言,我们调查了在医学领域中的分类、分割、检测和其他任务上的持续学习研究。
  • 此外,我们为所评审的研究开发了一个分类法,识别了挑战并提供了解决这些问题的见解。
  • 我们还批判性地讨论了医学影像中持续学习的现状,包括识别开放问题并概述有前途的未来方向。

33. Animal Behavior Analysis Methods Using Deep Learning: A Survey 

动物行为是衡量生物适应环境能力及其整体健康状况的可靠指标。通过对动物行为和互动的严格观察,研究人员和观察者可以获得关于其生活各方面的宝贵见解,包括健康状况、社会动态、生态关系和神经行为学方面。

尽管最先进的深度学习模型在分类各种动物数据方面表现出色,但它们在动物行为研究中的应用仍然有限。

本文综述了应用于动物行为识别的深度学习架构和策略,涵盖了听觉、视觉和视听方法。

  • 此外,本文还详细审查了现有的动物行为数据集,深入分析了这一研究领域面临的主要挑战。
  • 最后,本文全面讨论了在深度学习中可能推动动物行为研究领域进展的关键研究方向。

34. A Survey on Design-space Dimensionality Reduction Methods for Shape Optimization 

工程函数表面(functional surfaces)设计领域的快速发展需要复杂的工具来管理高维设计空间的固有复杂性。

本综述深入探讨了专为形状优化设计的设计空间降维技术(design-space dimensionality reduction techniques),连接传统方法与前沿技术。

  • 从经典的线性方法如主成分分析(PCA)到更精细的非线性方法如自编码器(autoencoder),本文详细解析了这些技术的范围。
  • 此外,讨论还扩展到创新的物理信息(physics-informed)方法,这些方法将物理数据整合到降维过程中,提升了简化模型的预测准确性和相关性。
  • 通过将这些方法整合到优化框架中,展示了它们如何显著减轻维度灾难,简化计算过程,并优化复杂函数表面的探索和优化。

维度灾难(Curse of Dimensionality)是由 Richard Bellman 在 1961 年提出的一个术语,描述了随着数学空间维度增加而伴随的复杂性指数增长【1】。在形状优化的背景下,随着设计变量向量 的维度和设计空间界限的增加,空间的体积呈指数增长,使得用有限数量的观测(observations)覆盖它变得越来越困难。这种复杂性不仅影响了优化方法的有效性,包括那些依赖于代理模型和多保真度方法的优化方法,还使代理模型的训练和不确定性量化变得更加复杂。 

35. A Survey on Vision-Language-Action Models for Embodied AI 

深度学习在许多领域取得了显著的成功,包括计算机视觉、自然语言处理和强化学习。这些领域中代表性的人工神经网络包括卷积神经网络、Transformer 和深度 Q 网络。

在单模态神经网络的基础上,已经引入了许多多模态模型来解决各种任务,如视觉问答、图像标题生成和语音识别。

在具有体现智能的指示遵循机器人政策的崛起推动下,出现了一类新的多模态模型,称为视觉-语言-动作模型(vision-language-action,VLA)。它们的多模态能力已成为机器人学习的基础要素。

已经提出了各种方法来增强特征,例如通用性、灵活性和泛化性。

  • 一些模型专注于通过预训练来优化特定组件。
  • 其他模型旨在开发擅长预测低级动作的控制策略。
  • 某些 VLA 可以作为高级任务规划器,能够将长时间跨度的任务分解为可执行的子任务。

  • 20
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值