目录
参考资料:
论文链接:https://arxiv.org/abs/2407.02511?context=cs.CL
概述:
这篇论文的工作目的是解决路径规划中A*等传统算法,随着状态空间的增长,出现显著的计算和内存效率低下的问题。主要的创新点是使用大语言模型(LLM)与A*算法结合,将LLM的全局理解能力与A*算法的精确寻路能力相结合,显著降低了计算成本和内存占用,在保持路径有效性的同时提高了算法效率,特别适合大规模场景的路径规划。
1 A*算法
A*算法是目前最广泛使用的寻径和图遍历算法。它通过结合Dijkstra 's algo - algorithm和Greedy Best-First Search的优势,寻求找到从起始节点到目标节点的最短路径。
他的具体原理可以参考:路径规划 | A*算法原理-CSDN博客
A算法在众多应用场景中表现出色,能够高效地完成路径规划任务,并确保所找到路径的有效性。然而,它存在一个显著的局限:即在搜索过程中会扩展大量不必要的节点。这一特性导致随着地图规模的扩大,A算法的时间复杂度近乎呈指数级增长,从而降低了其实用性和效率。
为了解决这个问题,研究者们开发了Jump Point Search (JPS)算法,通过引入“跳点”策略来加速搜索过程。JPS能够在保持路径最优性的前提下,显著减少需要探索的节点数量,大幅提高了二维网格环境下的搜索效率。不过,当面对高维空间或非网格化环境时,即便是优化后的JPS也难以满足性能需求,因为其核心机制依赖于特定的网格结构和对称性,这在更复杂的环境中可能不复存在。
2 大语言模型(LLM)
2.1 LLM概念
大型语言模型(LLM)是指参数规模达数十亿至数千亿的深度神经网络模型,旨在通过处理海量数据来学习复杂的模式和特征,从而提升其表达能力和预测精度。这些模型广泛应用于自然语言处理、计算机视觉、语音识别及推荐系统等领域,因其强大的泛化能力,能够对未曾见过的数据做出准确预测。
大模型的核心优势在于它能通过大规模数据训练实现智能的涌现,即展现出类似人类的理解与生成能力。这使得LLM适用于多种场景,包括但不限于:
文本生成:创作连贯的段落、文章或对话,适用于自动写作和机器翻译。
问答系统:提供复杂问题的答案,并支持对话形式的交互。
语义理解与推理:执行情感分析、命名实体识别和文本分类等任务。
智能助理:增强机器人交互,实现自动摘要和信息提取等功能。
2.2 发展历程
大语言模型(LLM)的发展历程可以分为三个阶段:
第一阶段主要集中在设计一系列自监督训练目标(如MLM、NSP等),并引入了新颖的模型架构,如Transformer。这一阶段遵循Pre-training和Fine-tuning范式,通过大规模预训练和针对特定任务的微调来提升模型性能。典型代表包括BERT、GPT和XLNet等模型。
第二阶段则逐步扩大了模型参数和训练语料的规模,并探索了不同类型的架构。这一阶段的典型代表是BART、T5和GPT-3等模型。这些模型不仅在参数规模上显著增加,还在架构上进行了创新,进一步提升了模型的表达能力和泛化能力。
第三阶段进入了AIGC(Artificial Intelligent Generated Content)时代,模型参数规模达到了千万亿级别,架构也转向了自回归架构。这一阶段的大模型不仅能够进行对话式和生成式交互,还支持多模态应用。同时,这些模型更加注重与人类交互的对齐,致力于实现可靠、安全、无毒的模型。典型代表包括Instruction GPT、Chat GPT、Bard和GPT-4等。
2.3 LLM 工作原理
LLM 的核心在于它如何利用深度学习技术来模拟人类的语言理解和生成过程。具体来说,LLM 主要依靠以下几种关键技术:
Transformer 架构:这是当前最流行的深度学习架构之一,它使用注意力机制(Attention Mechanism)来捕捉文本中词语之间的长距离依赖关系,从而更好地理解上下文。