
Survey Paper
文章平均质量分 73
主要是针对AI领域相关内容,paper综述文章的整理,提供最全的survey论文,也能提供最为简洁的论文介绍。目前部分论文提供的只有摘要和结论的完整翻译,后续会慢慢完善全文部分翻译,订阅请注意!!!如需要可私信催更!!
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Survey on Evaluation of LLM-based Agents
基于LLM的智能体代表了AI范式的转变,使自主系统能够在动态环境中进行规划、推理、使用工具并保持记忆。基础能力(规划、工具使用、自我反思、记忆);领域特定基准(网页、软件工程、科学、对话代理);通用智能体评估;评估框架。研究揭示了动态评估趋势(如更真实的挑战场景和实时基准),并指出未来需解决的关键问题:成本效率、安全性、鲁棒性及细粒度评估方法的开发。本综述为智能体评估的快速演进提供了全景图,指明了研究方向。原创 2025-04-01 09:30:00 · 126 阅读 · 0 评论 -
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
大型语言模型(LLMs)在复杂任务中展现出卓越能力。近期,OpenAI o1和DeepSeek-R1等大型推理模型(LRMs)通过监督微调(SFT)和强化学习(RL)技术优化思维链(CoT)推理,进一步提升了数学、编程等System-2推理领域的性能。然而,较长的CoT推理序列虽能提高准确性,但冗余的输出会导致显著的计算开销,即“过度思考现象”。高效推理旨在优化推理长度同时保留能力,可降低计算成本并提升实时应用响应速度。尽管潜力巨大,高效推理仍处于研究初期。原创 2025-03-31 10:48:31 · 191 阅读 · 0 评论 -
LLM4SR: A Survey on Large Language Models for Scientific Research
近年来,大语言模型(LLMs)的迅速发展改变了科学研究的格局,在研究周期的各个阶段都提供了前所未有的支持。本文首次系统地探讨了LLMs如何彻底改变科学研究过程。我们分析了LLMs在研究的四个关键阶段(假设发现、实验规划与实施、科学写作和同行评审)中所发挥的独特作用。我们的综述全面展示了特定任务的方法和评估基准。通过识别当前的挑战并提出未来的研究方向,本综述不仅突出了LLMs的变革潜力,还旨在启发和指导研究人员及从业者利用LLMs推动科学探索。原创 2025-03-27 09:30:00 · 76 阅读 · 0 评论 -
When Large Language Models Meet Speech: A Survey on Integration Approaches
大语言模型(LLMs)的最新进展激发了人们将其应用扩展到基于文本的任务之外的兴趣。大量研究探索了将其他模态与LLMs相结合,尤其是与文本天然相关的语音模态。本文对语音与LLMs的集成进行了综述,将方法分为三大主要类型:基于文本的集成、基于潜在表示的集成和基于音频令牌的集成。我们还展示了这些方法如何应用于各种与语音相关的应用中,并强调了该领域的挑战,为未来的研究提供启发。原创 2025-03-23 09:30:00 · 74 阅读 · 0 评论 -
Binary Neural Networks for Large Language Model: A Survey
大语言模型(LLMs)在自然语言处理(NLP)领域有着广泛应用,如GPT-4和Llama。然而,随着模型参数规模呈指数级增长,大语言模型带来了巨大的资源开销。低比特量化作为一项关键技术,通过减小模型参数、激活值和梯度的比特宽度,降低了内存使用和计算需求。以往针对大语言模型的量化方法主要采用训练后量化(PTQ)和量化感知训练(QAT)。训练后量化无需对原始模型进行重新训练,而量化感知训练则在训练过程中优化精度以获得最佳量化参数。原创 2025-03-10 09:30:00 · 127 阅读 · 0 评论 -
Taxonomy, Opportunities, and Challenges of Representation Engineering for Large Language Models
表示工程(RepE)是一种控制LLM行为的新范式。与修改输入或微调模型的传统方法不同,RepE直接操纵模型的内部表示。因此,它可以对模型的行为提供更有效、可解释、数据高效和灵活的控制。我们首次对LLM的RepE进行了全面调查,回顾了快速增长的文献,以解决关键问题:存在哪些RepE方法,它们有何不同?RepE被应用于哪些概念和问题?与其他方法相比,RepE的优缺点是什么?为了回答这些问题,我们提出了一个统一的框架,将RepE描述为一个包括表示识别、操作和控制的管道。原创 2025-03-03 14:45:39 · 108 阅读 · 0 评论 -
A Survey on Large Language Models with some Insights on their Capabilities and Limitations
人工智能的快速发展,特别是基于transformer架构的大型语言模型(LLM)的发展,重新定义了自然语言处理的能力。这些模型现在在各种与语言相关的任务中表现出卓越的性能,如文本生成、问答、翻译和摘要,通常可以与人类的理解能力相媲美。更有趣的是,LLM已经证明了超越其核心功能的涌现能力,表现出对常识推理、代码生成和算术等任务的熟练程度。本文探讨了驱动这些功能的基础组件、扩展机制和架构策略。我们强调GPT和LLaMA等模型,分析指数数据和计算增长对LLM性能的影响,同时解决与扩展相关的权衡问题。原创 2025-03-02 09:00:00 · 23 阅读 · 0 评论 -
A Survey on Large Language Models for Communication, Network, and Service Management
近几十年来,通信网络的快速发展加剧了对高级网络和服务管理(NSM)策略的需求,以满足对这些网络的效率、可扩展性、增强性能和可靠性日益增长的需求。大型语言模型(LLM)因其在各种自然语言处理(NLP)任务中无与伦比的能力和生成上下文感知见解而受到极大关注,为自动化各种通信NSM任务提供了变革性的潜力。对比考虑单个网络域的现有调查,本调查调查了不同通信网络域之间LLM的集成,包括移动网络和相关技术、车载网络、基于云的网络和基于雾/边缘的网络。原创 2025-02-16 10:00:00 · 158 阅读 · 0 评论 -
When Text Embedding Meets Large Language Model: A Comprehensive Survey
在深度学习时代,文本嵌入已成为自然语言处理(NLP)的基础技术,推动了一系列下游任务的进步。虽然现在可以使用生成范式对许多自然语言理解挑战进行建模,并利用大型语言模型(LLM)的强大生成和理解能力,但许多实际应用,如语义匹配、聚类和信息检索,仍然依赖于文本嵌入来提高效率和有效性。在这项调查中,我们将LLM和文本嵌入之间的相互作用分为三个总体主题:(1)LLM增强文本嵌入,用LLM增强传统嵌入方法;(2) LLM作为文本嵌入器,利用其固有的嵌入生成能力;原创 2025-02-09 10:00:00 · 111 阅读 · 0 评论 -
Large Language Models in Politics and Democracy: A Comprehensive Survey
生成式人工智能的进步,特别是大型语言模型(LLMs)的进步,对政治和民主产生了重大影响,在包括政策制定、政治沟通、分析和治理在内的各个领域提供了潜力。本文调查了LLM在政治中的最新和潜在应用,考察了它们的前景和相关的挑战。本文探讨了LLM在立法过程、政治沟通和政治分析中的应用方式。此外,我们还研究了LLM在外交和国家安全背景下、经济和社会建模以及法律应用中的潜力。虽然LLM提供了提高政治进程效率、包容性和决策的机会,但它们也带来了与偏见、透明度和问责制相关的挑战。原创 2025-02-11 09:00:00 · 311 阅读 · 0 评论 -
Graph Learning in the Era of LLMs: A Survey from the Perspective of Data, Models, and Tasks
随着跨域文本属性图(TAG)数据(如引用网络、推荐系统、社交网络和人工智能科学)的日益普及,将图神经网络(GNN)和大型语言模型(LLM)整合到一个统一的模型架构中(如LLM作为增强器,LLM作为协作者,LLM为预测器)已成为一种有前景的技术范式。这种新的图形学习范式的核心在于GNN捕捉复杂结构关系的能力和LLM从丰富的图形文本描述中理解信息上下文的能力的协同结合。因此,我们可以利用具有丰富语义上下文的图形描述文本从根本上提高数据质量,从而根据以数据为中心的机器学习原则提高以模型为中心的方法的表示能力。原创 2025-02-07 10:00:00 · 92 阅读 · 0 评论 -
The Fusion of Large Language Models and Formal Methods for Trustworthy AI Agents: A Roadmap
大型语言模型(LLMs)已经成为一种变革性的人工智能范式,通过其出色的语言理解和上下文生成能力深刻地影响着日常生活。尽管LLM表现出色,但它们面临着一个关键的挑战:由于其基于学习的性质的固有局限性,倾向于产生不可靠的输出。另一方面,形式化方法(FM)是一种成熟的计算范式,为系统的建模、指定和验证提供了数学上严格的技术。FM已广泛应用于关键任务软件工程、嵌入式系统和网络安全。然而,阻碍FM在现实环境中部署的主要挑战在于其陡峭的学习曲线、缺乏用户友好的界面以及效率和适应性问题。原创 2025-01-26 09:00:00 · 208 阅读 · 0 评论 -
Reinforcement Learning Enhanced LLMs: A Survey
本文调查了通过强化学习(RL)增强大型语言模型(LLM)这一快速增长领域的研究,强化学习是一种技术,它使LLM能够通过根据其输出质量以奖励形式接收反馈来提高其性能,从而使其能够生成更准确、连贯和符合上下文的响应。在这项工作中,我们对RLenhanced LLM的最新知识状态进行了系统回顾,试图巩固和分析该领域快速增长的研究,帮助研究人员了解当前的挑战和进展。具体来说,我们(1)详细介绍了强化学习的基础知识;(2) 引入流行的强化学习LLM;原创 2025-01-25 09:15:00 · 207 阅读 · 0 评论 -
Large Language Model Safety: A Holistic Survey
大型语言模型(LLM)的快速开发和部署为人工智能带来了新的前沿,其标志是在自然语言理解和生成方面具有前所未有的能力。然而,这些模型越来越多地集成到关键应用程序中,引发了大量的安全问题,需要彻底检查其潜在风险和相关的缓解策略。这项调查全面概述了LLM安全的现状,涵盖了四大类:价值错位、对抗性攻击的鲁棒性、滥用和自主AI风险。原创 2025-01-24 09:00:00 · 178 阅读 · 0 评论 -
Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey
在自然语言处理中语言建模的基础上,Next Token Prediction(NTP)已经发展成为跨各种模式的机器学习任务的通用训练目标,取得了相当大的成功。随着大型语言模型(LLM)的发展,在文本模态中统一了理解和生成任务,最近的研究表明,来自不同模态的任务也可以有效地封装在NTP框架中,将多模态信息转换为令牌,并在给定上下文的情况下预测下一个。这项调查引入了一个全面的分类法,通过NTP的视角统一了多模态学习中的理解和生成。原创 2025-01-28 09:30:00 · 157 阅读 · 0 评论 -
A Survey on Large Language Model Acceleration based on KV Cache Management
大型语言模型(LLM)因其理解上下文和执行逻辑推理的能力,彻底改变了自然语言处理、计算机视觉和多模态任务等广泛领域。然而,LLM的计算和内存需求,特别是在推理过程中,在将其扩展到现实世界、长上下文和实时应用程序时带来了重大挑战。键值(KV)缓存管理已成为一种关键的优化技术,通过减少冗余计算和提高内存利用率来加速LLM推理。本调查全面概述了LLM加速的KV缓存管理策略,将其分为token级、模型级和系统级优化。原创 2025-01-28 09:00:00 · 525 阅读 · 0 评论 -
Large Language Model Enhanced Recommender Systems: Taxonomy, Trend, Application and Future
大型语言模型(LLM)在包括推荐系统(RS)在内的各个领域都具有变革潜力。有一些研究侧重于通过LLM赋予RS权力。然而,之前的研究主要集中在LLM作为RS上,这可能会面临LLM不能容忍推理成本的挑战。最近,将LLM集成到RS中,称为LLM增强推荐系统(LLMERS),由于其有可能解决现实应用中的延迟和内存限制,引起了人们的极大兴趣。本文对旨在利用LLM增强RS能力的最新研究工作进行了全面调查。我们发现该领域的一个关键转变是将LLM纳入在线系统,特别是通过避免在推理过程中使用LLM。原创 2025-01-27 09:15:00 · 138 阅读 · 0 评论 -
Dive into Time-Series Anomaly Detection: A Decade Review
数据收集技术的最新进展,伴随着流数据量和速度的不断增长,突显了对时间序列分析的迫切需求。在这方面,时间序列异常检测一直是一项重要活动,在网络安全、金融市场、执法和医疗保健等领域都有各种应用。虽然传统的异常检测文献主要集中在统计指标上,但近年来越来越多的机器学习算法要求对时间序列异常检测的研究方法进行结构化、通用的表征。本调查在时间序列背景下,对以流程为中心的分类下的异常检测现有解决方案进行了分组和总结。除了对异常检测方法进行原始分类外,我们还对文献进行了元分析,并概述了时间序列异常检测研究的一般趋势。原创 2025-01-22 09:15:00 · 280 阅读 · 0 评论 -
Knowledge Boundary of Large Language Models: A Survey
尽管大型语言模型(LLM)在其参数中存储了大量的知识,但它们在记忆和利用某些知识方面仍然存在局限性,导致了不良的行为,如产生不真实和不准确的反应。这突显了理解LLM知识边界的迫切需要,这一概念在现有研究中仍未得到充分定义。在这项调查中,我们提出了LLM知识边界的全面定义,并引入了一种形式化的分类法,将知识分为四种不同的类型。基于这一基础,我们从三个关键角度系统地回顾了该领域:研究LLM知识边界的动机、识别这些边界的方法以及缓解它们带来的挑战的策略。最后,我们讨论了该领域的开放挑战和潜在的研究方向。原创 2025-01-17 10:15:00 · 256 阅读 · 0 评论 -
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model
数学推理是人类认知的一个核心方面,在从教育问题解决到科学进步的许多领域都至关重要。随着通用人工智能(AGI)的发展,将大型语言模型(LLM)与数学推理任务相结合变得越来越重要。这项调查首次对多模态大语言模型(MLLM)时代的数学推理进行了全面分析。我们回顾了自2021年以来发表的200多项研究,并研究了数学LLM的最新发展,重点关注多模态设置。我们将该领域分为三个维度:基准、方法和挑战。特别是,我们探索了多模态数学推理管道,以及(M)LLM和相关方法的作用。原创 2025-01-12 10:15:00 · 534 阅读 · 0 评论 -
Large Language Model-Brained GUI Agents: A Survey
图形用户界面 (GUI) 长期以来一直是人机交互的核心,提供了一种直观且视觉驱动的方式来访问数字系统并与之交互。传统上,自动化 GUI 交互依赖于基于脚本或基于规则的方法,这种方法虽然对固定工作流程有效,但缺乏动态、实际应用程序所需的灵活性和适应性。大型语言模型 (LLM),特别是多模态模型的出现,开创了 GUI 自动化的新时代。他们在自然语言理解、代码生成、任务泛化和视觉处理方面表现出了卓越的能力。原创 2024-12-28 10:15:00 · 149 阅读 · 0 评论 -
A Comprehensive Study on Quantization Techniques for Large Language Models
自从 Transformer 模型流行起来以来,大型语言模型 (LLM) 在学术界和工业界得到了广泛的研究和使用,并在人工智能领域表现出了优异的性能。然而,LLM的计算需求巨大,而运行它们所需的能源通常是有限的。例如,像 GPT-3 这样的流行模型具有 1750 亿个参数和 350 GB 的存储需求,这给资源有限的物联网设备和嵌入式系统的部署带来了巨大的挑战。这些系统通常缺乏处理如此大型模型的计算能力。原创 2024-12-14 09:30:00 · 57 阅读 · 0 评论 -
Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models
鉴于会话人工智能的进步,大型语言模型(LLM)的评估和评价在确保各种会话任务的最佳性能方面发挥着至关重要的作用。在这篇论文中,我们进行了一项全面的研究,全面评估了五种流行的LLM的能力和局限性:Llama、OPT、Falcon、Alpaca和MPT。这项研究包括各种对话任务,包括保留、移情反应生成、心理健康和法律咨询、说服和谈判。为了进行评估,采用了广泛的测试设置,利用了从自动评估到人工评估的多种评估标准。这包括使用通用和特定任务的指标来准确衡量LM的性能。原创 2024-12-15 10:30:00 · 114 阅读 · 0 评论 -
A Comprehensive Survey of Small Language Models in the Era of Large Language Models
大型语言模型 (LLM) 在文本生成、问题回答和推理方面表现出了新兴的能力,促进了各种任务和领域的发展。尽管 LaPM 540B 和 Llama-3.1 405B 等LLM精通各种任务,但由于参数大小和计算需求较大而面临限制,通常需要使用云 API,这会引发隐私问题,限制边缘设备上的实时应用程序,并增加精细度。调整成本。此外,由于特定领域知识不足,LLM通常在医疗保健和法律等专业领域表现不佳,需要专门的模型。因此,小语言模型(SLM)因其低推理延迟、成本效益、高效开发、易于定制和适应性而越来越受到青睐。原创 2024-12-12 09:15:00 · 190 阅读 · 0 评论 -
Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain
自然语言处理中的开放域问答 (ODQA) 涉及构建使用大规模知识语料库回答事实问题的系统。最近的进展源于多种因素的综合作用,例如大规模训练数据集、深度学习技术和大型语言模型的兴起。高质量的数据集用于在现实场景中训练模型,并能够根据潜在的未见过的数据对系统进行评估。标准化指标有助于不同 ODQA 系统之间的比较,使研究人员能够客观地跟踪该领域的进展。我们的研究通过审查跨文本和多模态的 52 个数据集和 20 种评估技术,对 ODQA 基准测试的当前状况进行了彻底的检查。原创 2024-12-11 10:00:00 · 153 阅读 · 0 评论 -
Exploring the use of a Large Language Model for data extraction in systematic reviews
本文描述了使用大型语言模型 (LLM) GPT-4 在系统评价中(半)自动化数据提取的快速可行性研究。尽管最近人们对LLM的兴趣激增,但对于如何设计基于LLM的自动化工具以及如何稳健地评估其性能仍然缺乏了解。在 2023 年证据合成黑客马拉松期间,我们进行了两项可行性研究。首先,从人类临床、动物和社会科学领域研究中自动提取研究特征。我们使用每个类别的两项研究来进行快速开发;和十个用于评估。原创 2024-12-06 10:15:00 · 183 阅读 · 0 评论 -
A Survey on LLM-as-a-Judge
准确和一致的评估对于许多领域的决策至关重要,但由于固有的主观性、可变性和规模,这仍然是一项具有挑战性的任务。大型语言模型(LLM)在不同领域取得了显著的成功,导致了“LLM即法官”的出现,LLM被用作复杂任务的评估者。LLM能够处理不同的数据类型,并提供可扩展、经济高效和一致的评估,是传统专家驱动评估的有力替代品。然而,确保LLM即法官系统的可靠性仍然是一个重大挑战,需要仔细设计和标准化。本文对LLM-as-a-Judge进行了全面的调查,解决了核心问题:如何建立可靠的LLM-as-a-Judge系统?原创 2024-11-27 09:49:28 · 493 阅读 · 0 评论 -
A Survey of Small Language Models
小型语言模型(SLM)因其以最少的计算资源执行各种语言任务的效率和性能而变得越来越重要,使其成为各种设置的理想选择,包括设备上、移动设备、边缘设备等。在这篇文章中,我们对SLM进行了全面的调查,重点介绍了它们的架构、训练技术和模型压缩技术。我们提出了一种新的分类方法,用于对用于优化SLM的方法进行分类,包括模型压缩、修剪和量化技术。我们总结了可用于对SLM进行基准测试的基准数据集以及常用的评估指标。此外,我们强调了仍有待解决的关键开放挑战。原创 2024-11-05 16:15:45 · 376 阅读 · 0 评论 -
A Survey of using Large Language Models for Generating Infrastructure as Code
基础设施即代码 (IaC) 是一种革命性的方法,在行业中获得了极大的重视。IaC 通过实现自动化、跨环境一致性、可重复性、版本控制、减少错误和增强可扩展性,使用机器可读代码管理和配置 IT 基础设施。然而,IaC 编排通常是一项艰苦的工作,需要专业技能和大量的手动工作。在目前的行业条件下,IaC 的自动化是必要的,在本次调查中,我们研究了应用大型语言模型 (LLM) 来解决这个问题的可行性。LLM 是基于神经网络的大型模型,已展示出强大的语言处理能力,并表明能够在广泛的范围内遵循一系列指令。原创 2024-10-31 21:20:43 · 166 阅读 · 0 评论 -
A Survey of Multimodal Large Language Model from A Data-centric Perspective
多模态大型语言模型 (MLLM) 通过集成和处理来自多种模态(包括文本、视觉、音频、视频和 3D 环境)的数据来增强标准大型语言模型的功能。数据在这些模型的开发和改进中起着关键作用。在这项调查中,我们从以数据为中心的角度全面回顾了有关 MLLM 的文献。具体来说,我们探索了在 MLLM 的预训练和适应阶段准备多模态数据的方法。此外,我们还分析了数据集的评估方法,并回顾了评估 MLLM 的基准。我们的调查还概述了未来潜在的研究方向。原创 2024-10-26 19:23:10 · 164 阅读 · 0 评论 -
A Survey of Generative Search and Recommendation in the Era of Large Language Models
随着 Web 上的信息爆炸式增长,搜索和推荐是满足用户信息需求的基础设施。作为同一枚硬币的两面,两者都围绕着同一个核心研究问题,将查询与文档匹配,或将用户与项目匹配。近几十年来,搜索和推荐经历了同步的技术范式转变,包括基于机器学习和基于深度学习的范式。近年来,超智能生成式大语言模型在搜索和推荐方面引发了一种新的范式,即生成式搜索(检索)和推荐,旨在以生成方式解决匹配问题。在本文中,我们对信息系统中新兴的范式进行了全面调查,并从统一的角度总结了生成式搜索和推荐的发展。原创 2024-10-26 19:15:35 · 184 阅读 · 0 评论 -
The Life Cycle of Large Language Models: A Review of Biases in Education
大型语言模型 (LLM) 越来越多地用于教育环境,为学生和教师提供个性化支持。基于 LLM 的应用程序理解和生成自然语言的空前能力可能会提高教学效率和学习成果,但 LLM 与教育技术的整合再次引发了对算法偏见的担忧,这可能会加剧教育不平等。在这篇综述中,基于先前绘制传统机器学习生命周期的工作,我们提供了 LLM 生命周期的整体地图,从 LLM 的初始开发到为教育环境中的各种应用定制预训练模型。我们解释了LLM生命周期中的每一个步骤,并确定了在教育背景下可能出现的潜在偏见来源。原创 2024-10-24 15:30:30 · 136 阅读 · 0 评论 -
A review on the use of large language models as virtual tutors
Transformer 架构有助于管理自然语言处理的长期依赖关系,这是该领域的最新变化之一。这些架构是创新、尖端的大型语言模型 (llm) 的基础,这些模型在多个领域和工业领域引起了巨大的轰动,其中教育领域尤为突出。因此,这些基于生成式人工智能的解决方案将技术的变化和教育方法和内容以及网络基础设施的演变引导到高质量的学习。鉴于 LLMS 的普及,本综述旨在全面概述那些专门为生成和评估教育材料而设计的解决方案,这些解决方案让学生和教师参与他们的设计或实验计划。原创 2024-10-19 19:49:07 · 153 阅读 · 0 评论 -
Survey on Reasoning Capabilities and Accessibility of Large Language Models Using Biology-related
本研究论文讨论了过去十年在生物医学和大型语言模型方面取得的进展。为了了解这些进步是如何相互携手的,本文还讨论了自然语言处理技术和工具与生物医学的整合。最后,该论文的目标是通过为前两种语言模型引入新的问题和提示列表,来扩展去年(2023 年)进行的一项调查。通过这项调查,本文试图量化 LLM 推理能力的改进,以及普通用户对这些改进的感受程度。此外,本文旨在通过促使 LLM 深入回答开放式问题来扩展对生物文献检索的研究。原创 2024-10-18 09:45:00 · 137 阅读 · 0 评论 -
A Taxonomy for Data Contamination in Large Language Models
在广泛的 Web 语料库上预训练的大型语言模型在各种下游任务中表现出卓越的性能。然而,人们越来越担心数据污染,其中评估数据集可能包含在预训练语料库中,从而夸大了模型性能。去污,即检测和删除此类数据的过程,是一种潜在的解决方案;然而,这些污染物可能来自测试集的更改版本,在净化过程中逃避检测。不同类型的污染如何影响语言模型在下游任务上的性能尚不完全清楚。我们提出了一个分类法,对 LLM 在预训练阶段遇到的各种类型的污染进行分类,并确定哪些类型构成最高风险。原创 2024-10-09 10:11:38 · 504 阅读 · 0 评论 -
A Survey on LoRA of Large Language Models
低秩自适应(LoRA)是一种性能最佳的参数高效微调范式,它使用可插拔的低秩矩阵更新密集的神经网络层。此外,它在跨任务泛化和隐私保护方面具有显著优势。因此,LoRA最近受到了广泛关注,相关文献的数量呈指数级增长。有必要对LoRA的当前进展进行全面概述。本次调查从以下角度对进展进行了分类和回顾:(1)改善LoRA在下游任务中表现的下游适应改进变体;(2) 混合多个LoRA插件以实现跨任务泛化的跨任务泛化方法;(3) 提高LoRA计算效率的效率改进方法;(4) 在联邦学习中使用LoRA的数据隐私保护方法;原创 2024-10-03 11:30:00 · 413 阅读 · 0 评论 -
A SURVEY OF PROMPT ENGINEERING METHODS IN LARGE LANGUAGE MODELS FOR DIFFERENT NLP TASKS
大型语言模型 (LLM) 在许多不同的自然语言处理 (NLP) 任务中表现出卓越的性能。提示工程在增加 LLM 的现有功能以在各种 NLP 任务上实现显着的性能提升方面发挥着关键作用。提示工程需要编写称为提示的自然语言指令,以结构化的方式从 LLM 中获取知识。与以前最先进的 (SoTA) 模型不同,提示工程不需要根据给定的 NLP 任务进行广泛的参数重新训练或微调,因此仅根据 LLM 的嵌入式知识进行操作。原创 2024-10-03 09:00:00 · 373 阅读 · 0 评论 -
A Survey of Backdoor Attacks and Defenses on Large Language Models
大型语言模型 (LLM) 弥合了人类语言理解和复杂问题解决之间的差距,在多项 NLP 任务上实现了最先进的性能,特别是在少样本和零样本设置中。尽管 LMM 的功效显而易见,但由于计算资源的限制,用户必须使用开源语言模型或将整个训练过程外包给第三方平台。然而,研究表明,语言模型容易受到潜在安全漏洞的影响,特别是在后门攻击中。后门攻击旨在通过毒害训练样本或模型权重,将目标漏洞引入到语言模型中,从而使攻击者能够通过恶意触发器操纵模型响应。原创 2024-10-01 10:00:00 · 211 阅读 · 0 评论 -
A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting
最近,大型语言模型(LLM)在各种数据挖掘任务中表现出了巨大的潜力,例如知识问答、数学推理和常识推理。然而,法学硕士在时间事件预测方面的推理能力尚未得到充分探索。为了系统地研究他们在时间事件预测方面的能力,我们对基于LLM的时间事件预测方法进行了综合评估。由于缺乏涉及图和文本数据的高质量数据集,我们首先构建一个基准数据集,命名为MidEast-TE-mini。基于该数据集,我们设计了一系列基线方法,其特点是各种输入格式和检索增强生成(RAG)模块。原创 2024-09-29 09:30:00 · 187 阅读 · 0 评论 -
Claim Verification in the Age of Large Language Models: A Survey
互联网上可用的大量且不断增加的数据,加上手动索赔和事实验证的繁重任务,激发了人们对开发自动索赔验证系统的兴趣。1 已经提出了几种深度学习和基于变压器的模型多年来这个任务。随着大型语言模型 (LLM) 的引入及其在多个 NLP 任务中的卓越性能,我们看到基于 LLM 的声明验证方法激增,以及检索增强生成 (RAG) 等新颖方法的使用。在本次调查中,我们全面介绍了最近使用法学硕士的索赔验证框架。我们详细描述了这些框架中使用的声明验证管道的不同组件,包括常见的检索、提示和微调方法。原创 2024-09-26 09:45:18 · 140 阅读 · 0 评论