自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

栖客

栖霞山下,客坐天涯!

  • 博客(1145)
  • 收藏
  • 关注

原创 ExeSQL:通过执行驱动的引导生成自我学习的文本到SQL模型以应对SQL方言

最近的文本到SQL模型虽然取得了强大的性能,但其有效性在很大程度上仍局限于SQLite,这是由于数据集的限制。然而,现实世界的应用需要在具有不同语法和专业功能的多个SQL方言中生成SQL,这对当前模型来说仍然是一个挑战。构建方言感知模型的主要障碍在于获取高质量的方言特定数据。仅通过静态提示生成的数据,在没有通过执行验证SQL的情况下,往往噪声大且不可靠。此外,训练循环中缺乏真实的执行环境,防止模型将其预测基于可执行语义,尽管通过数据过滤在表面水平上有所改进,但仍然限制了泛化能力。

2025-06-04 22:51:55 881

原创 震荡揭示:基于扰动的LLM幻觉检测

幻觉仍然是在真实世界问答任务中可靠部署大型语言模型(LLMs)的关键障碍。一种广泛采用的幻觉检测策略,即自我评估,依赖于模型自身的输出置信度来估计其答案的事实准确性。然而,这种策略假设模型的输出分布能够密切反映真实数据分布,这在实际应用中可能并不总是成立。随着模型各层中的偏差不断累积,最终输出可能会偏离底层推理过程,从而使输出级别的置信度成为幻觉检测的一个不可靠信号。在这项工作中,我们提出了样本特定提示(SSP),这是一种新的框架,通过分析中间表示对扰动的敏感性来改进自我评估。

2025-06-04 22:47:05 866

原创 Pt-SQL:通过高资源编程语言的精细指导增强Text-to-SQL

Text-to-SQL 将用户查询从自然语言转换为可执行的SQL程序,使非专家能够与复杂数据库交互。现有的基于提示的方法精心设计了文本指南和示例以促进SQL生成,但由于文本和低资源SQL程序之间的语义差距较大,其准确性受到限制。在本工作中,我们提出了Pt-SQL,它引入高资源Python程序作为桥梁,连接自然语言查询和SQL程序。特别是,Pt-SQL首先生成提供细粒度逐步指南的Python程序(在其代码块或注释中),然后根据每个Python程序的指导生成SQL程序。

2025-06-04 22:42:25 905

原创 开放集生活需求预测与大型语言模型

生活需求是人们在日常生活中为了生存和幸福而产生的需求。在像美团这样的生活服务平台上,用户购买行为由生活需求驱动,因此准确的生活需求预测对于个性化服务推荐至关重要。传统方法将此预测视为闭集分类问题,严重限制了其捕捉生活需求多样性和复杂性的能力。在这项工作中,我们将生活需求预测重新定义为一个开放集分类问题,并提出了PIGEON,这是一个利用大型语言模型(LLMs)进行无限制需求预测的新系统。

2025-06-04 22:37:50 992

原创 大型语言模型中出现的线性空间世界模型

大型语言模型(LLMs)在各种任务中展示了新兴能力,引发了它们是否获取内部世界模型的问题。在这项工作中,我们研究了LLMs是否隐含地编码了线性空间世界模型,我们将之定义为物理空间和物体配置的线性表示。我们引入了一个形式化的空间世界模型框架,并评估这种结构是否在上下文嵌入中出现。使用一个合成数据集中的物体位置,我们训练探测器以解码物体位置并评估底层空间的几何一致性。我们进一步进行因果干预,测试这些空间表示是否被模型功能化使用。我们的结果提供了实证证据,证明LLMs编码了线性空间世界模型。

2025-06-04 22:34:24 1242

原创 针对本地生活服务的大规模语言模型的基准测试与改进

大规模语言模型(LLMs)在各个领域展现了显著的能力,并取得了重大突破,近年来得到了广泛应用。在此基础上,我们研究了它们在本地生活服务领域的潜力。本研究中,我们建立了一个全面的基准,并系统评估了各种LLMs在与本地生活服务相关的广泛任务中的表现。为进一步提高其有效性,我们探索了两种关键方法:模型微调和基于代理的工作流程。我们的研究发现,即使是一个相对紧凑的7B模型也能达到比大得多的72B模型相当的性能水平,有效平衡了推理成本和模型能力。

2025-06-04 22:30:05 563

原创 LogicCat:一个多领域推理挑战的链式思维文本到SQL基准

文本到SQL是自然语言处理中的一个基本任务,旨在将自然语言问题转化为有意义且可执行的SQL查询。尽管现有的数据集广泛且主要集中在业务场景和操作逻辑上,但它们通常缺乏特定领域的知识和复杂的数学推理覆盖。为了解决这一空白,我们提出了一种新颖的数据集,专为SQL推理中的复杂推理和链式思维分析而设计,涵盖了物理、算术、常识和假设推理。该数据集包含4,038个英文问题,每个问题都配有一个独特的SQL查询,并附有12,114个逐步推理注释,跨越了45个不同领域的数据库。

2025-06-04 22:27:16 988

原创 FAuNO:边缘系统中任务卸载的半异步联邦强化学习框架

Frederico Metelo †∗{ }^{\dagger *}†∗ Alexandre Oliveira †{ }^{\dagger}†, Stevo Racković ‡{ }^{\ddagger}‡, Pedro Ákos Costa †{ }^{\dagger}†, Cláudia Soares †{ }^{\dagger}††{ }^{\dagger}† NOVA School of Science and Technology, Lisbon, Portugal‡{ }^{\ddagger}

2025-06-04 22:24:19 881

原创 真正评估大型语言模型的流体智力通过动态推理评估

近年来,大型语言模型(LLMs)在展示令人印象深刻的推理能力方面取得了显著进展,这些能力类似于人类思维。然而,LLMs 是否具备真正的流体智力(即,在新情况下抽象推理和泛化规则的能力)仍然是一个开放的问题。现有的推理基准要么专注于特定领域的知识(结晶智力),要么缺乏可解释性。为了解决这些局限性,我们提出了 DRE-Bench,这是一个基于分层认知框架的动态推理评估基准。DRE-Bench 包括分布在四个认知层次上的 36 个抽象推理任务,每个任务都具有多个动态变体,用于测试相同的潜在隐含规则。

2025-06-04 22:20:14 787

原创 TaxAgent: 大型语言模型设计财政政策

经济不平等是全球面临的挑战,加剧了教育、医疗和社会稳定方面的差异。传统的系统如美国联邦所得税减少了不平等,但缺乏适应性。尽管像Saez最优税收这样的模型能够动态调整,但它们未能解决纳税人异质性和非理性行为的问题。本研究介绍了TaxAgent,这是一种将大型语言模型(LLMs)与基于代理的建模(ABM)相结合的新方法,用于设计自适应税制。在我们的宏观经济模拟中,异质性的H-Agents(家庭)模拟真实世界的纳税人行为,而TaxAgent(政府)利用LLMs迭代优化税率,平衡公平和生产力。

2025-06-04 22:19:19 1019

原创 为什么AI代理使用人类语言进行交流?

大型语言模型(LLMs)已成为现代AI代理系统的基础,使自主代理能够进行推理和规划。在大多数现有系统中,代理间的通信主要依赖于自然语言。虽然这种设计支持了可解释性和人类监督,我们认为它在代理到代理的协调中引入了根本性的局限性。自然语言的语义空间与LLMs操作的高维向量空间在结构上不一致,导致信息丢失和行为漂移。除了表面效率低下之外,我们还强调了一个更深层次的架构局限:当前的LLM并非以支持代理行为为目标而训练的。因此,它们缺乏对角色连续性、任务边界和多代理依赖关系建模的机制。

2025-06-04 22:17:47 794

原创 从提示到保护:大型语言模型驱动的上下文学习在智能公共安全无人机中的应用

公共安全无人驾驶飞行器(UAV)在应急响应中增强了态势感知能力。其敏捷性和优化机动性以及建立视线(LoS)通信的能力使其在管理诸如灾害响应、搜救和野火监测等紧急情况中变得越来越重要。尽管深度强化学习(DRL)已被应用于优化无人机导航和控制,但其高训练复杂性、低样本效率以及模拟到现实的差距限制了其在公共安全领域的实用性。最近大型语言模型(LLMs)的进步提供了一个有吸引力的替代方案。

2025-06-04 22:16:44 626

原创 Surfer-H 遇见 Holo1:由开放权重驱动的高性价比网络代理

我们介绍了 Surfer-H,这是一种高性价比的网络代理,它集成了视觉语言模型 (VLM) 来执行用户定义的任务。我们将它与 Holo1 配对,Holo1 是一组新的开源权重 VLM,专门用于网络导航和信息提取。Holo1 在精心策划的数据源上进行了训练,包括开放访问的网络内容、合成示例和自产代理数据。Holo1 在通用用户界面 (UI) 基准测试以及我们新的网络 UI 定位基准 WebClick 中名列前茅。当由 Holo1 提供支持时,Surfer-H 在 WebVoyager 上实现了92.2。

2025-06-04 22:15:46 1213

原创 使用LLM的DPO学习-计算机使用代理的判断信号

计算机使用代理(CUA)是自动与图形用户界面(GUI)交互以完成任务的系统。随着大型视觉-语言模型(VLM)的出现,CUA取得了显著进展。然而,这些代理通常依赖于计算需求巨大的基于云的推理,这引发了关键的隐私和可扩展性问题,尤其是在个人设备上运行时。在本研究中,我们通过开发一种完全在本地机器上运行的轻量级视觉-语言模型,向隐私保护和资源高效的代理迈进了一步。为了训练这个紧凑型代理,我们引入了一个LLM-as-Judge框架,该框架能够自动评估和过滤合成交互轨迹,无需人工注释即可生成高质量数据以进行强化学习。

2025-06-04 22:14:20 944

原创 基于分数的生成建模进行条件独立性测试

任一新*yxren21@m.fudan.edu.cn复旦大学中国上海李柯keli.kl@alibaba-inc.com阿里巴巴集团中国杭州张浩h.zhang10@siat.ac.cn中国科学院深圳先进技术研究院中国深圳金成厚 ∗{ }^{*}∗jinch24@m.fudan.edu.cn复旦大学中国上海黄龙涛kaiyang.hlt@alibaba-inc.com阿里巴巴集团中国杭州关继红 †{ }^{\dagger}†jhguan@tongji.edu.cn同济大学中国上海夏业伟ywxia23@.m.fud

2025-06-01 21:27:48 982

原创 上下文鲁棒知识编辑用于语言模型

朴海婉 1∗{ }^{1 *}1∗, 崔圭彬 1∗{ }^{1 *}1∗, 金珉俊 2{ }^{2}2, 赵友汉 1†{ }^{1 \dagger}1†1{ }^{1}1 首尔国立大学数据科学研究生院,2{ }^{2}2 光州科学技术院电气工程与计算机科学系{dellaanima2,yeppi315,yohan.jo}@snu.ac.krminjun01@gist.ac.kr知识编辑(KE)方法为修改大型语言模型中的知识提供了一种有效方式。当前的KE评估通常仅通过考虑被编辑的知识来评估编辑的成功,而没有上下

2025-06-01 21:07:56 817

原创 AgentAlign:从信息型到代理型大型语言模型转变中的安全对齐导航

代理能力的获取使LLM(大型语言模型)从“知识提供者”转变为“行动执行者”,这一趋势虽然扩展了LLM的能力边界,但显著增加了其被恶意使用的可能性。先前的研究表明,即使在未受攻击的情况下,当前基于LLM的代理仍然会执行大量恶意任务,这表明在训练后阶段,代理使用安全性对齐存在不足。为解决这一问题,我们提出了AgentAlign,这是一种利用抽象行为链作为安全对齐数据合成媒介的新框架。通过在模拟环境中实例化这些行为链并结合多样化的工具实例,我们的框架能够生成高度真实且可执行的指令,同时捕捉复杂的多步骤动态。

2025-06-01 20:58:05 577

原创 机器遗忘是否真正移除了模型知识?大型语言模型中的遗忘审计框架

近年来,大型语言模型(LLMs)取得了显著进展,吸引了研究界的广泛关注。其能力主要归功于大规模架构,这需要在海量数据集上进行广泛训练。然而,这些数据集通常包含从公共互联网获取的敏感或受版权保护的内容,引发了对数据隐私和所有权的关注。监管框架,如《通用数据保护条例》(GDPR),赋予个人要求删除此类敏感信息的权利。这促使了机器遗忘算法的发展,旨在无需昂贵的重新训练即可从模型中移除特定知识。尽管有这些进展,但由于LLMs固有的复杂性和生成性质,评估遗忘算法的有效性仍然是一个挑战。

2025-06-01 20:51:46 496

原创 增强还是不增强?纯大语言模型推荐系统与增强型大语言模型推荐系统的比较研究

大语言模型(LLMs)通过提供更丰富的语义理解和整合隐含的世界知识,为推荐系统引入了新的范式。在本研究中,我们提出了一种系统化的分类法,将现有方法分为两类:(1) 纯 LLM 推荐系统,完全依赖于 LLMs;(2) 增强型 LLM 推荐系统,通过整合额外的非 LLM 技术来提升性能。这种分类法为审视基于 LLM 的推荐系统的发展提供了全新的视角。为了支持公平比较,我们引入了一个统一的评估平台,在一致的实验设置下对代表性模型进行基准测试,并突显影响有效性的关键设计选择。

2025-06-01 20:48:33 558

原创 哨兵:基于代理模型注意力探测的LLM上下文压缩的理解视角

检索增强生成(RAG)通过外部上下文增强了大语言模型(LLMs),但检索到的段落通常过长、噪声过多或超出输入限制。现有的压缩方法通常需要对专用压缩模型进行监督训练,增加了成本并降低了便携性。我们提出了哨兵(Sentinel),一种轻量级的句子级压缩框架,将上下文过滤重新定义为基于注意力的理解任务。与训练压缩模型不同,哨兵通过一个轻量级分类器从现成的0.5B代理LLM中探测解码器注意力,以识别句子相关性。经验上,我们发现查询-上下文相关性估计在不同模型规模之间是一致的,0.5B代理与更大模型的行为紧密匹配。

2025-06-01 20:46:10 1012

原创 阿拉伯语AI指纹:大型语言模型文本的文体分析与检测

大型语言模型(LLMs)在生成类人文本方面取得了前所未有的能力,在包括教育、社交媒体和学术在内的关键领域中对信息完整性构成了微妙但重大的挑战。这些挑战包括支持复杂的虚假信息活动、削弱医疗指导的可信度以及促进针对性宣传。这一挑战在像阿拉伯语这样的尚未充分探索且资源有限的语言中尤为严重。本文对阿拉伯语机器生成文本进行了全面研究,考察了多种生成策略(仅从标题生成、内容感知生成和文本优化)在不同模型架构(ALLaM、Jais、Llama和GPT-4)中的表现,并覆盖学术和社交媒体领域。

2025-06-01 20:44:24 817

原创 从知识到噪声:CTIM-Rover 和软件工程代理中情节记忆的陷阱

我们介绍了一种名为 CTIM-Rover1{ }^{1}1的 AI 代理,它基于 AutoCodeRover (张等,2024) 构建,并扩展了情节记忆框架,更具体地说是一种通用和存储库级别的跨任务实例记忆 (CTIM)。尽管现有的开源软件工程 (SE) 代理大多依赖于 ReAct (姚等,2023b),Reflexion (Shinn 等,2023) 或 CodeAct (王等,2024),但所有这些推理和规划框架在单个任务实例后都会低效地丢弃其长期记忆。

2025-06-01 20:41:45 753

原创 VLM-RRT:视觉语言模型引导的RRT搜索用于自主无人机导航

路径规划是自主无人飞行器(UAVs)的一项基本能力,使它们能够高效地朝目标区域导航或探索复杂环境,同时避开障碍物。传统的路径规划方法,如快速扩展随机树(RRT),已被证明是有效的,但往往面临重大挑战。这些问题包括高搜索空间复杂性、次优路径质量和收敛速度慢,在诸如灾难响应等高风险应用中尤为突出,这些情况下快速高效的规划至关重要。为了解决这些限制并提高路径规划效率,我们提出了视觉语言模型RRT(VLM-RRT),这是一种将视觉语言模型(VLMs)的模式识别能力与RRT的路径规划优势相结合的混合方法。

2025-06-01 20:40:18 896

原创 大型语言模型能否在医学图像分析中挑战卷积神经网络?

本研究提出了一种多模态人工智能框架,旨在精确分类医学诊断图像。通过使用公开可用的数据集,所提出的系统比较了卷积神经网络(CNNs)和不同大型语言模型(LLMs)的优势。这项深入的对比分析突出了诊断性能、执行效率和环境影响方面的关键差异。模型评估基于准确性、F1分数、平均执行时间、平均能耗以及估算的CO2CO2​排放量。研究结果表明,尽管基于CNN的模型可以在结合图像和上下文信息的各种多模态技术中表现更优,但在LLMs的基础上增加额外的过滤可以显著提高性能。

2025-06-01 20:34:26 980

原创 朝着有效的AI治理迈进:原则综述

背景:人工智能(AI)治理是建立框架、政策和程序的实践,以确保AI系统的负责任、道德和安全开发与部署。尽管AI治理是负责任AI的核心支柱,但当前文献中仍缺乏对这些治理框架和实践的综合分析。目标:识别在AI治理的次级文献中强调哪些框架、原则、机制和利益相关者角色。方法:我们对IEEE和ACM(2020-2024年)中的九篇同行评审次级研究进行了快速三级回顾,使用结构化纳入标准和主题语义综合。结果:引用最多的框架包括欧盟AI法案和NIST RMF;透明度和问责制是最常见的原则。

2025-06-01 20:33:35 469

原创 OSS-UAgent:一种基于代理的开源软件可用性评估框架

可用性评估对于开源软件(OSS)的影响和采用至关重要,但传统的依赖人类评估者的方法存在高成本和有限可扩展性的问题。为了解决这些局限性,我们引入了OSS-UAgent,这是一种自动化、可配置且交互式的基于代理的可用性评估框架,专门设计用于开源软件。我们的框架使用由大语言模型(LLMs)驱动的智能代理来模拟不同经验水平(从初级到专家)的开发者执行编程任务。通过动态构建特定平台的知识库,OSS-UAgent确保准确且上下文感知的代码生成。

2025-06-01 20:31:30 916

原创 DCG-SQL:通过深度上下文模式链接图增强文本到SQL的上下文中学习

文本到SQL,即将自然语言问题转换为SQL查询,随着大型语言模型(LLMs)的上下文中学习而进步。然而,现有方法相比随机选择的示例,在性能上几乎没有改进,并且当使用较小的LLMs(如Llama 3.1-8B)时,性能显著下降。这表明这些方法过于依赖超大规模LLMs的内在能力,而不是有效地检索有用的示例。在本文中,我们提出了一种用于有效检索示例和生成SQL查询的新方法。我们构建了一个深度上下文模式链接图,其中包含问题与其数据库模式项之间的关键信息和语义关系。

2025-06-01 09:33:17 818

原创 Arctic-Text2SQL-R1:简单的奖励,强大的文本到SQL推理能力

将自然语言转换为SQL(Text2SQL)是一项长期挑战,位于自然语言理解和结构化数据访问的交叉点。尽管大型语言模型(LLMs)显著提高了SQL生成的流畅性,但生成正确且可执行的SQL——尤其是复杂的查询——仍然是一个瓶颈。我们提出了Arctic-Text2SQL-R1,这是一种强化学习(RL)框架和模型家族,旨在使用仅基于执行正确性的轻量级奖励信号生成准确且可执行的SQL。我们的方法避免了脆弱的中间监督和复杂的奖励塑造,促进了稳定训练并与最终任务对齐。

2025-05-31 21:56:28 931 1

原创 COBRA:确保战略代理如实报告的情境强盗算法

Arun Verma 1{ }^{1}1, Indrajit Saha 2{ }^{2}2, Makoto Yokoo 2{ }^{2}2, Bryan Kian Hsiang Low 1,3{ }^{1,3}1,31{ }^{1}1 新加坡-麻省理工学院技术联盟,新加坡共和国2{ }^{2}2 九州大学ISEE系,日本3{ }^{3}3 新加坡国立大学计算机科学系,新加坡共和国arun.verma@smart.mit.edu, indrajit@inf.kyushu-u.ac.jp, yokoo@inf.

2025-05-31 21:34:42 855

原创 段落策略优化:在强化学习中用于大型语言模型的有效段落级信用分配

郭一然 †{ }^{\dagger}†, 徐立杰 †∗{ }^{\dagger *}†∗, 刘杰 †∗{ }^{\dagger *}†∗, 叶丹 †{ }^{\dagger}†, 邱爽 ‡{ }^{\ddagger}‡†{ }^{\dagger}† 中国科学院软件研究所†{ }^{\dagger}† 中国科学院大学‡{ }^{\ddagger}‡ 香港城市大学{guoyiran23, xulijie, ljie, yedan}@otcaix.iscas.ac.cn shuanqiu@cityu.edu.hk

2025-05-31 21:04:54 610

原创 理性代理人在资源约束下的生存风险意识

具有代理能力的高级推理模型(AI代理)被部署用于与人类互动并解决基于(近似)效用函数和内部模型的顺序决策问题。当这些问题存在资源或失败约束时,一旦资源耗尽,行动序列可能会被迫终止,这使得代理面临隐含的权衡,从而重塑其效用驱动(理性)行为。此外,由于这些代理通常由人类委托人代表其行事,约束暴露的不对称性可能导致之前未预料到的人类目标与代理激励之间的错位。

2025-05-31 21:03:00 758

原创 EvoRefuse:用于评估和缓解大型语言模型对伪恶意指令过度拒绝的进化提示优化方法

吴晓瑞Wu1\mathbf{W u}^{1}Wu1,毛晓峰2{ }^{2}2,李飞Li1\mathbf{L i}^{1}Li1,张欣2{ }^{2}2,张霞露2{ }^{2}2,周军2{ }^{2}2,彭宇翔1{ }^{1}1,郑莉1{ }^{1}1,滕冲1{ }^{1}1,季东宏1{ }^{1}1,李壮Li3\mathbf{L i}^{3}Li31{ }^{1}1 航天信息安全与可信计算教育部重点实验室,武汉大学网络空间安全学院,中国武汉2{ }^{2}2 蚂蚁集团3{ }^{3}3 澳大利亚皇家墨尔本理

2025-05-31 20:57:30 585

原创 具有可信自主性的安全运营中心中的人工智能协作统一框架

AHMAD MOHSIN,数字未来中心,科学学院,伊迪斯科文大学,澳大利亚 HELGE JANICKE,数字未来中心,科学学院,伊迪斯科文大学,澳大利亚 AHMED IBRAHIM,数字未来中心,科学学院,伊迪斯科文大学,澳大利亚 IQBAL H. SARKER,数字未来中心,科学学院,伊迪斯科文大学,澳大利亚 SEYIT CAMTEPE,CSIRO’s Data61,澳大利亚本文提出了一种结构化的框架,用于安全运营中心(SOCs)中的人工智能协作,整合了人工智能自主性、信任校准和人在环路决策。

2025-05-31 20:39:27 1050

原创 主动层对比解码减少大型语言模型生成中的幻觉

最近的解码方法通过改进生成过程中下一个标记的选择方式,提高了大型语言模型 (LLMs) 的事实性。这些方法通常在标记级别操作,利用内部表示来抑制表面模式。然而,LLMs 在较长的上下文中仍然容易产生幻觉。在本文中,我们提出了主动层对比解码 (ActLCD),这是一种新颖的解码策略,它在生成过程中主动决定何时应用对比层。通过将解码视为一个顺序决策问题,ActLCD 运用由奖励感知分类器引导的强化学习策略,在超越标记级别的基础上优化事实性。

2025-05-31 20:36:24 826

原创 SafeScientist:通过LLM代理实现风险感知的科学发现

最近大语言模型(LLM)代理的进展显著加速了科学发现的自动化,但同时也引发了关键的伦理和安全问题。为系统地解决这些挑战,我们引入了SafeScientist,一个创新的人工智能科学家框架,旨在增强人工智能驱动的科学探索中的安全性和伦理责任。SafeScientist主动拒绝在伦理上不适当或高风险的任务,并在整个研究过程中严格强调安全性。为了实现全面的安全监督,我们集成了多种防御机制,包括提示监控、代理协作监控、工具使用监控和伦理审查组件。

2025-05-31 20:32:05 766

原创 大规模语言模型时代的自动形式化:综述

自动形式化——将非正式数学命题转化为可验证的形式化表示的过程——是自动化定理证明中的基础任务,为数学在理论和应用领域的使用提供了新的视角。得益于人工智能的快速发展,特别是大规模语言模型(LLMs)的推动,这一领域取得了显著进展,带来了新的机遇和独特挑战。在本综述中,我们从数学和LLM中心视角全面概述了自动形式化的最新进展。我们探讨了自动形式化如何应用于不同数学领域和难度级别,并分析了从数据预处理到模型设计与评估的端到端工作流。

2025-05-31 20:29:17 951

原创 第二意见很重要:通过专家模型集成的共识迈向自适应临床AI

尽管大型语言模型(LLMs)在临床应用中的采用日益增多,但目前的方法仍然严重依赖于单一模型架构。为了克服单模型系统过时和刚性依赖的风险,我们提出了一种新颖的框架,称为共识机制,旨在灵活整合多个“专家”模型的优势。模仿临床分诊和多学科临床决策制定,共识机制实施了由专业医疗“专家”代理组成的集成,从而在医学基准测试中实现了前所未有的性能,并且随着新的LLMs的出现具有强大的适应能力。这一过程使共识机制能够根据内部模型配置优化成本、延迟或性能。

2025-05-31 20:26:26 822

原创 TRAP: Targeted Redirecting of Agentic Preferences

由视觉-语言模型(VLMs)驱动的自主代理AI系统正迅速向实际部署迈进,然而其跨模态推理能力引入了新的对抗性操作攻击面,这些攻击利用跨模态的语义推理。现有的对抗攻击通常依赖于可见像素扰动或需要对模型或环境的特权访问,这使得它们在隐秘、现实世界的利用中不切实际。我们提出了TRAP,一种生成性的对抗框架,通过基于扩散的语义注入操纵代理的决策制定。我们的方法结合了基于负面提示的降级与正面语义优化,由双胞胎语义网络和布局感知的空间掩码引导。

2025-05-31 20:23:27 647

原创 Infi-MMR:通过多阶段强化学习在多模态小型语言模型中基于课程的解锁多模态推理

最近大型语言模型(LLMs)的发展展示了推理能力的重大进展,例如DeepSeek-R1 [1],它利用基于规则的强化学习显著增强了逻辑推理。然而,将这些成就扩展到多模态大型语言模型(MLLMs)面临关键挑战,对于多模态小型语言模型(MSLMs)而言尤其明显,因为它们通常具有较弱的基础推理能力:(1) 高质量多模态推理数据集的稀缺;(2) 因视觉处理集成而导致推理能力下降;(3) 直接应用强化学习可能产生复杂但不正确的推理过程的风险。

2025-05-31 20:19:36 933

原创 支持公共交通数据决策的代理聊天机器人设计与测试

评估公共交通服务的质量需要分析大量关于计划和实际行程的数据以及列出每项服务需满足的质量约束的文档。对于大多数用户而言,通过SQL查询来检索这些数据集、组织并可视化数据可能相当复杂。本文介绍了一款聊天机器人,它提供了一个用户友好的工具,用于与这些数据集交互并支持决策制定。该聊天机器人基于代理架构,扩展了核心大语言模型(LLM)的能力,使其能够与其他工具交互以执行多种任务,例如执行SQL查询、绘制数据图表以及根据行程及其站点的坐标创建地图。

2025-05-31 20:15:56 798

NLI4DB: 数据库的自然语言接口系统综述

随着在生活各个领域中查询数据库的需求不断增长,研究人员对 自然 语言 接口 用于 数据 库 (NLIDB)给予了极大的关注。本文对最近提出的NLIDBs进行了全面的调查。我们首先简要介绍了自然语言处理技术、可执行数据库语言和自然语言与可执行语言之间的中间表示,然后提供了从自然语言到可执行数据库语言的翻译过程概述。翻译过程分为三个阶段:(i) 自然语言预处理 ,(ii) 自然语言理解 ,以及(iii) 自然语言翻译 。预处理阶段使用了传统方法和数据驱动方法。传统方法依赖于预定义的规则和语法,并涉及正则表达式、依存句法分析和命名实体识别等技术。数据驱动方法依赖于大规模数据和机器学习模型,使用包括词嵌入和模式链接在内的技术。自然语言理解方法分为三类:(i) 基于规则 ,(ii) 基于机器学习 ,以及(iii) 混合方法 。随后,我们描述了在关系数据库和时空数据库上构建可执行语言的一般过程。接下来,展示了将自然语言转换为可执行语言的常用基准和评估指标,并探讨了生成新基准的方法。最后,我们总结了NLIDB系统的分类、发展和增强,并讨论了与NLIDB相关的深度语言理解和数据库交互技术,包括(i)

2025-03-30

FutureGen:生成科学文章未来工作的LLM-RAG方法

科学文章的未来工作部分通过识别当前研究的空白和局限性来概述潜在的研究方向。这一部分为寻找未开发领域的早期职业研究人员以及寻找新项目或合作的经验丰富的研究人员提供了宝贵的资源。在本研究中,我们从科学文章的关键部分及相关论文中生成未来工作建议,并分析趋势如何演变。我们尝试了各种大型语言模型(LLMs),并集成了检索增强生成(RAG)以增强生成过程。我们结合了一个LLM反馈机制以提高生成内容的质量,并提出了一种将LLM作为评估者的做法。我们的结果显示,基于RAG的方法加上LLM反馈在定性和定量指标评估中优于其他方法。此外,我们进行了一项人工评估,以评估LLM作为提取器和评估者的性能。

2025-03-30

CausalRAG:将因果图整合到检索增强生成中

大型语言模型(LLMs)彻底改变了自然语言处理(NLP),特别是通过检索增强生成(RAG),它通过整合外部知识增强了LLM的能力。然而,传统的RAG系统存在关键限制,包括由于文本分块导致的上下文完整性中断,以及过度依赖语义相似性进行检索。为了解决这些问题,我们提出了 CausalRAG ,这是一种将因果图整合到检索过程中的新框架。通过构建和追踪因果关系, CausalRAG 保留了上下文连续性并提高了检索精度,从而生成更准确且可解释的响应。我们将 CausalRAG 与普通RAG和基于图的RAG方法进行了比较,展示了其在多个指标上的优越性。我们的研究结果表明,基于因果推理的检索为知识密集型任务提供了一种有前途的方法。

2025-03-30

RGL:一种以图为中心、模块化的高效图检索增强生成框架

近年来,图学习领域的进步见证了大量旨在增强图上检索增强生成(RAG)各个方面的方法的涌现 (Guo et al. 2024; Y. Hu et al. 2024; M. Li, Miao, and Li 2025) 。给定一个查询,RAG 从现有数据中检索相关样本(上下文),并根据检索到的信息生成响应。图上的检索增强生成(RoG)通过利用图结构更有效地检索上下文信息,扩展了 RAG 的功能。各种图应用,例如问答、节点分类和推荐——这些应用包含丰富的结构化数据(例如用户-项目交互 (J. Hu et al. 2024a) 、论文引用网络 (J. Hu, Hooi, 和 He 2024) 等)——可以潜在地受益于 RoG 技术 (He et al. 2025; Edge et al. 2024) 。 给定一个图,例如社交网络或电子商务图,我们在图 1 中展示了典型的图上 RAG 流程。该流程从 1) 索引 开始,其中节点被组织以便于高效访问。接下来,2) 节点检索 根据连通性或属性选择相关节点,然后 3) 图检索 构建子图以捕获局部结构。这些子图在 4) 分词 阶段被转

2025-03-30

在RAG-Text2SQL系统中平衡内容大小

大型语言模型(LLMs)作为一种有前景的解决方案,能够将自然语言查询转换为SQL命令,从而实现无缝的数据库交互。然而,这些文本到SQL(Text2SQL)系统面临着固有的局限性、幻觉生成、过时知识和不可追踪推理等问题。为了解决这些挑战,将检索增强生成(RAG)与Text2SQL模型集成的方法逐渐受到关注。RAG作为一个检索机制,提供必要的上下文信息,如表结构和元数据,以增强查询生成过程。尽管潜力巨大,RAG + Text2SQL系统对检索文档的质量和大小非常敏感。虽然更丰富的文档内容可以提高结构相关性和检索准确性,但同时也引入了噪声,增加了幻觉生成的风险,并随着Text2SQL模型提示大小的增加而降低了查询保真度。本研究探讨了文档大小与质量之间的微妙权衡,旨在找到优化系统性能的平衡点。确定了性能下降的关键阈值,并提出了应对这些挑战的实际策略。此外,我们还探讨了Text2SQL模型中的幻觉现象,强调精心策划的文档呈现方式在减少错误中的关键作用。我们的研究结果为增强RAG + Text2SQL系统的鲁棒性提供了路线图,为实际应用提供了实用见解。

2025-03-29

MAPQA : 开放领域地理空间问答基于地图数据

地理空间问答(QA)是导航和兴趣点(POI)搜索中的基本任务。尽管现有的地理空间QA数据集存在,但它们在规模和多样性方面受到限制,通常仅依赖于地理实体的文本描述,而未考虑其几何形状。扩大地理空间QA数据集的主要挑战在于地理空间关系的复杂性,这需要整合空间结构、拓扑依赖以及多跳推理能力,而大多数基于文本的QA数据集缺乏这些能力。为解决这些限制,我们引入了 MAPQA ,这是一个新颖的数据集,不仅提供了问题-答案对,还包含了问题中引用的地理实体的几何信息。 MAPQA 使用SQL查询模板从OpenStreetMap(OSM)中提取问题-答案对,研究区域为南加州和伊利诺伊州。它由3,154个QA对组成,涵盖九种需要地理空间推理的问题类型,如邻里推断和地理实体类型识别。与现有数据集相比, MAPQA 扩展了地理空间问题类型的数量和多样性。我们探索了两种方法来应对这一挑战:(1)基于检索的语言模型,通过嵌入相似性对候选地理实体进行排名;(2)大型语言模型(LLM),根据自然语言问题和地理实体属性生成SQL查询,并在OSM数据库上执行。我们的研究结果表明,基于检索的方法能够有效捕捉诸如

2025-03-29

基于LLM的数据分析中的洞察生成方法

从数据库中生成有见地且可操作的信息在数据分析中至关重要。本文介绍了一种使用大型语言模型(LLMs)自动生成文本洞察的新方法。给定一个多表数据库作为输入,我们的方法利用LLMs生成反映表格中有趣模式的简洁文本洞察。我们的框架包括一个假设生成器,用于制定与领域相关的问题;一个查询代理,通过生成SQL查询来回答这些问题;以及一个摘要模块,将洞察转化为自然语言。这些洞察通过结合人类判断和自动化指标的方式进行评估,确保其正确性和主观洞察性。在公共和企业数据库上的实验结果表明,我们的方法生成的洞察比其他方法更具洞察力,同时保持了准确性。

2025-03-29

V-SQL:一种基于视图的两阶段Text-to-SQL框架

Text-to-SQL任务旨在无偏地将自然语言转换为结构化查询语言(SQL)。最近,基于大语言模型(LLMs)的Text-to-SQL方法引起了广泛关注。主流Text-to-SQL框架的核心是模式链接,它将用户查询与数据库中的相关表和列对齐。以前的方法专注于模式链接,而忽略了增强LLMs对数据库模式的理解。数据库中表之间的复杂耦合关系限制了LLMs生成SQL的能力。为了解决这个问题,本文提出了一种简单而有效的策略,称为基于视图的模式。该策略通过将紧密耦合的表解耦为低耦合视图,帮助LLMs理解数据库模式。然后我们介绍了V-SQL,一种基于视图的两阶段Text-to-SQL框架。V-SQL利用基于视图的模式策略来增强LLMs对数据库模式的理解。在权威数据集Bird上的结果表明,V-SQL与现有的最先进的方法相比具有竞争力。 关键词:大语言模型,Text-to-SQL,情境学习,数据库,NLP。

2025-03-29

Genicious:用于洞察发现的情境化Few-shot提示

数据和洞察发现对于现代组织的决策至关重要。我们介绍了Genicious,这是一个基于LLM的接口,使用户能够与表格数据集交互并用自然语言提出复杂查询。通过对比多种提示策略和语言模型,我们开发了一个端到端工具,利用情境化Few-shot提示,在延迟、准确性和可扩展性方面表现出色。Genicious赋予利益相关者高效探索、分析和可视化其数据集的能力,同时通过基于角色的访问控制和Text-to-SQL方法确保数据安全。

2025-03-29

通过答案-公式联合生成实现通用表格问答

先进的表格问答(TableQA)方法提示大型语言模型(LLMs)生成答案文本、SQL查询、Python代码或自定义操作,这显著提升了TableQA任务中的复杂推理问题。然而,这些方法缺乏应对特定问题类型或表格结构的灵活性。相比之下,电子表格公式作为一种广泛使用且明确定义的操作语言,尚未被充分探索以解决TableQA问题。在本文中,我们首次尝试使用公式作为逻辑形式来解决不同结构表格上的复杂推理问题。具体而言,我们从现有数据集中构建了一个大规模的公式注释TableQA数据集 FromulaQA 。此外,我们提出了 TabAF ,这是一个用于同时解决多种类型表格上多种类型任务的通用表格回答框架。与现有方法不同, TabAF 通过单一的LLM主干解码答案和公式,展示了极高的灵活性和泛化能力。 TabAF 基于Llama3.1-70B在WikiTableQuestion、HiTab和TabFact上实现了新的最先进性能。

2025-03-29

链式思维推理是否有助于移动GUI代理?一项实证研究

推理能力显著提高了视觉语言模型(VLMs)在数学问题求解、编程和视觉问答等领域的性能。然而,它们对实际应用的影响尚不明确。本文首次对推理增强型VLMs在移动GUI代理中的有效性进行了实证研究,这是一个需要解释复杂屏幕布局、理解用户指令并执行多轮交互的领域。我们评估了两对商业模型——Gemini 2.0 Flash和Claude 3.7 Sonnet,比较了它们的基础版本和推理增强版本在两个静态基准测试(ScreenSpot和AndroidControl)以及一个交互环境(AndroidWorld)上的表现。我们惊讶地发现,Claude 3.7 Sonnet推理模型在AndroidWorld上取得了最先进的性能。然而,推理VLMs在静态基准测试中通常只提供边际改进,甚至在某些代理设置下会降低性能。值得注意的是,推理和非推理VLMs在不同的任务集上失败,这表明推理确实有影响,但其利弊相互抵消。我们将这些不一致归因于基准测试和VLMs的局限性。基于研究结果,我们为通过基准测试、VLMs及其动态调用推理VLMs的能力进一步提升移动GUI代理提供了见解。实验数据已在以下网址公开: https:/

2025-03-29

DAgent:一种基于关系数据库驱动的数据分析报告生成代理

基于关系数据库驱动的数据分析(RDB-DA)报告生成旨在通过查询关系数据库生成数据分析报告,已在金融、医疗等领域得到广泛应用。通常,这些任务由数据科学家手动完成,这使得过程非常耗时,并显示出对自动化的迫切需求。尽管现有的方法(例如表问答或文本到SQL)被提出以减少人工依赖,但它们无法处理需要多步推理、跨表关联和将见解整合为报告的复杂分析任务。此外,目前尚无可用于开发自动RDB-DA报告生成的数据集。为填补这一空白,本文提出了一种用于RDB-DA报告生成任务的大型语言模型(LLM)代理系统,称为DAgent;此外,我们还构建了一个用于自动生成数据分析报告的基准测试,包括一个新的数据集DA-Dataset和评估指标。DAgent通过集成规划、工具和记忆模块,将自然语言问题分解为逻辑独立的子查询,准确地从关系数据库中检索关键信息,并通过多步推理和有效的数据整合生成满足完整性、正确性和简洁性要求的分析报告。在DA-Dataset上的实验分析表明,DAgent在检索性能和分析报告生成质量方面具有优越性,展示了其解决复杂数据库分析报告生成任务的强大潜力。

2025-03-29

多模态大语言模型时代的代理推荐系统展望

近期大语言模型(LLMs)的突破性进展催生了超越单一模型能力的代理型人工智能系统。通过赋予LLMs感知外部环境、整合多模态信息和与各种工具交互的能力,这些代理系统在复杂任务中表现出更大的自主性和适应性。这一演变带来了推荐系统(RS)的新机遇:基于LLM的代理型推荐系统(LLM-ARS)可以提供更加互动、情境感知和主动的推荐服务,可能重塑用户体验并拓宽推荐系统的应用范围。尽管早期结果令人鼓舞,但基本挑战仍然存在,包括如何有效融入外部知识、平衡自主性与可控性以及在动态多模态环境中评估性能。在本文视角论文中,我们首先对LLM-ARS进行了系统分析:(1) 澄清核心概念和架构;(2) 强调代理能力(如规划、记忆和多模态推理)如何提升推荐质量;(3) 提出关键研究问题,涉及安全性、效率和终身个性化等领域。我们还讨论了开放问题和未来方向,认为LLM-ARS将推动推荐系统的下一轮创新。最终,我们预见推荐体验将向智能化、自主化和协作化的方向转变,更贴近用户不断变化的需求和复杂的决策过程。

2025-03-29

MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断

开发可靠的AI系统以协助人类临床医生进行多模态医学诊断一直是研究人员的主要目标。近年来,多模态大语言模型(MLLMs)受到了广泛关注,并在多个领域取得了成功。凭借强大的推理能力和根据用户指令执行多种任务的能力,它们在提升医学诊断方面具有巨大潜力。然而,直接将MLLMs应用于医学领域仍面临挑战。它们缺乏对视觉输入的详细感知能力,限制了其进行定量图像分析的能力,而这是医学诊断的关键。此外,MLLMs通常表现出幻觉和推理不一致的问题,而临床诊断必须严格遵循既定标准。为解决这些问题,我们提出了MedAgent-Pro,一个基于证据推理的代理系统,旨在实现可靠、可解释且精确的医学诊断。这通过分层工作流实现:在任务级别上,基于检索到的临床标准的知识推理生成针对特定疾病的可靠诊断计划;而在案例级别上,多个工具代理处理多模态输入,根据计划分析不同指标,并结合定量和定性证据提供最终诊断。在2D和3D医学诊断任务上的综合实验展示了MedAgent-Pro的优越性和有效性,而案例研究进一步突显了其可靠性和可解释性。代码可在以下链接获取: https://github.com/jinlab-imvr/MedA

2025-03-29

大型语言模型在问答任务中的代理综述

本文综述了基于大型语言模型(LLM)的问答(QA)代理的发展。传统代理面临显著限制,包括大量数据需求和难以推广到新环境的问题。基于LLM的代理通过利用LLM作为核心推理引擎解决了这些挑战。这些代理通过与外部环境交互,实现了比传统QA流水线和简单的LLM QA系统更优的问答效果。我们系统地回顾了LLM代理在问答任务中的设计,按关键阶段组织讨论:规划、问题理解、信息检索和答案生成。此外,本文识别了当前的挑战并探讨了未来的研究方向,以提高LLM代理问答系统的性能。

2025-03-29

SEAlign: 面向软件工程代理的对齐训练

近年来,代码生成模型在自动化软件开发任务方面展示了令人印象深刻的性能,但在现实世界的软件工程场景中仍面临挑战。尽管当前的训练方法,特别是后训练,在解决竞争性编程问题方面表现出色,但它们未能充分准备模型以应对实际软件开发的复杂性。这种错位提出了一个关键问题:现有的对齐训练方法是否适合现实世界的软件工程任务?在本研究中,我们确定了这一问题,并提出了SEAlign,这是一种新颖的对齐框架,旨在弥合代码生成模型与现实世界软件开发任务之间的差距。SEAlign利用软件工程过程的独特特征(包括高质量的工作流步骤)来增强模型能力。我们的框架进一步采用蒙特卡洛树搜索(MCTS)进行多步决策过程的细粒度对齐,并通过偏好优化关键动作确保模型满足现实需求。我们在三个标准的现实世界软件工程基准上评估了SEAlign,包括HumanEvalFix、SWE-Bench-Lite和SWE-Bench-Verified。实验结果表明,SEAlign以最少的训练开销实现了最先进的性能。此外,我们使用SEAlign开发了一个基于代理的软件开发平台,成功自动化创建了几个小型应用程序。人类对这些应用程序的评估突显了任务性能和

2025-03-29

MemInsight:大型语言模型代理的自主记忆增强

大型语言模型(LLM)代理已经进化到能够智能地处理信息、做出决策并与用户或工具进行交互。一个关键功能是整合长期记忆能力,使这些代理能够利用历史交互和知识。然而,随着记忆规模的增长和语义结构化的需求增加,这带来了显著的挑战。在本研究中,我们提出了一种自主记忆增强方法——MemInsight,以改进语义数据表示和检索机制。通过利用对历史交互的自主增强,LLM代理被证明可以提供更准确和上下文相关的响应。我们在三个任务场景中经验性地验证了所提方法的有效性:对话推荐、问答和事件总结。在LLM-REDIAL数据集上,MemInsight将推荐的说服力提升了高达14%。此外,在LoCoMo检索中,它在召回率方面比RAG基线高出34%。我们的实证结果表明,MemInsight有潜力提升LLM代理在多个任务中的上下文表现。

2025-03-29

GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战

最近在Text-to-SQL(Text-to-SQL)领域的进展,得益于大型语言模型(LLMs),正在使数据访问民主化。尽管取得了这些进展,但企业部署仍然具有挑战性,因为需要捕捉特定业务知识、处理复杂查询并满足对持续改进的期望。为了解决这些问题,我们设计并实现了GenEdit:我们的Text-to-SQL生成系统,可以通过用户反馈进行改进。GenEdit构建和维护一个公司特定的知识集,采用一系列分解SQL生成的运算符,并使用反馈更新其知识集以改善未来的SQL生成。 我们描述了GenEdit的架构,它由两个核心模块组成:(i) 分解SQL生成;以及 (ii) 基于用户反馈的知识集编辑。对于生成,GenEdit利用复合运算符来改进知识检索,并创建一个作为思维链步骤的计划来指导生成。GenEdit首先在初始检索阶段检索相关示例,其中原始SQL查询被分解成子语句、子句或子查询。然后还检索指令和模式元素。使用检索到的上下文信息,GenEdit随后生成自然语言的逐步计划,说明如何生成查询。最后,GenEdit使用该计划生成SQL,尽量减少模型推理的需求,从而增强复杂SQL的生成。如有必要,GenE

2025-03-29

用于零样本泛化到定性新任务的思考型智能体

智能生物能够解决在其一生或进化过程中从未遇到过的全新问题。这一能力的重要组成部分是“思考”的能力,即在心理上操纵对象、概念和行为,以规划和评估全新问题的可能解决方案,而无需与环境交互。为了生成真正定性新颖的问题(仍然可以通过心理模拟解决),我们利用环境的组合性质:我们在训练智能体时扣留环境元素的特定组合。基于这种组合的新测试任务因此保证是全新的,但由于智能体在训练过程中接触过每个单独元素(及其两两交互),它仍然是可以心理模拟的。我们提出了一种方法,通过选择基于智能体思考前后的性能差异的任务,来训练具有世界模型的智能体使用其心理模拟能力。当在全新的扣留问题上进行测试时,得到的智能体成功地模拟了替代场景,并利用由此产生的信息指导其在实际环境中的行为,在单一的实际环境试验中解决了新任务(零样本)。

2025-03-29

OmniNova:一个通用的多模态代理框架

将大型语言模型(LLMs)与专用工具集成,为智能自动化系统提供了新的机会。然而,由于协调困难、资源利用效率低下和信息流不一致,组织多个由LLM驱动的代理来处理复杂任务仍然具有挑战性。我们提出了OmniNova,这是一个模块化的多代理自动化框架,将语言模型与专用工具(如网络搜索、爬虫和代码执行能力)相结合。OmniNova引入了三项关键创新:(1)具有不同协调员、规划者、监督者和专家代理的分层多代理架构;(2)根据任务复杂度优化代理部署的动态任务路由机制;以及(3)分配适当模型以满足不同认知需求的多层次LLM集成系统。我们在研究、数据分析和网络交互领域的50个复杂任务上的评估表明,OmniNova在任务完成率(87% vs 基准62%)、效率(减少41%的令牌使用量)和结果质量(人类评分4.2/5 vs 基准3.1/5)方面优于现有框架。我们贡献了一个用于多代理系统设计的理论框架和一个开源实现,推动了基于LLM的自动化系统的最先进水平。

2025-03-29

【生物信息学】双向分层蛋白质多模态表示学习:融合蛋白质语言模型与图神经网络提升蛋白质相关任务预测性能

内容概要:本文提出了一种双向分层融合框架,旨在通过有效整合蛋白质语言模型(pLMs)和图神经网络(GNNs)来增强蛋白质表示学习。该框架通过注意力和门控机制,促进pLMs生成的序列表示和GNN提取的结构特征之间的交互,从而提高信息交换和增强。文中介绍了两种具体方法:局部双向分层融合带门控和全局双向分层融合带多头注意力。实验结果表明,该框架在多个蛋白质相关任务中显著优于现有技术,包括反应分类、模型质量评估、蛋白质-配体结合亲和力预测、蛋白质-蛋白质结合位点预测和B细胞表位预测。; 适合人群:从事生物信息学、蛋白质结构预测、药物设计等领域研究的专业人士,特别是对深度学习和多模态数据融合感兴趣的科研人员。; 使用场景及目标:①需要结合蛋白质序列和结构信息进行预测任务的研究;②希望提高蛋白质表示学习模型性能的研究者;③探索新型蛋白质表示方法的科学家。; 其他说明:该研究强调了双向分层融合技术在促进不同分支的蛋白质表示之间的更有效知识交流方面优于串行融合方法。此外,该框架适用于未来的各种GNN和pLMs,并可使其他GNN和pLMs受益于涉及蛋白质的其他下游任务。研究还指出了框架的局限性,即需要pLMs和GNN以某种方式表示相同层次的图节点,并且尚未找到一种方法来利用具有多尺度表示的结构。

2025-04-11

### 【自然语言处理】潜在专家混合(MoLE):用于资源高效语言模型的创新架构设计:本文介绍了潜在

内容概要:本文介绍了潜在专家混合(MoLE),一种用于资源高效语言模型的新颖架构。MoLE通过将专家模块映射到共享的低维潜在空间,减少了参数数量和计算需求。文章详细描述了MoLE的设计原理,包括专家操作的分解、共享投影和专家特定转换。此外,作者开发了一个严格的数学框架,将预训练的MoE模型转换为MoLE架构,并提出了一个两阶段算法来实现这一转换。实证评估表明,MoLE在显著减少资源需求的同时,实现了与标准MoE模型相当的性能。; 适合人群:对深度学习、自然语言处理和模型优化感兴趣的科研人员和技术开发者。; 使用场景及目标:①需要构建高效、资源节约的大规模语言模型;②希望在保持模型性能的同时减少计算资源消耗;③研究如何通过低秩近似和矩阵分解技术优化现有模型架构。; 其他说明:本文不仅提供了理论分析,还通过多个基准数据集的实验证明了MoLE的有效性。建议读者在实践中结合这些理论和实证结果,深入理解MoLE架构的优势及其在实际应用中的潜力。

2025-04-09

### 【人工智能模型压缩】MoQa:多阶段数据模型分布感知的MoE量化框架设计与优化

内容概要:本文提出了一种新的量化框架MoQa,用于解决专家混合模型(MoE)的复杂数据模型分布感知问题。MoQa通过多阶段分析解耦了MoE中的数据模型分布复杂性,定量揭示了稀疏数据激活、数据参数映射和专家间相关性的动态变化。基于这些分析,MoQa识别出特定专家和参数的重要性,并提出了适应各种数据激活和专家组合场景的一系列细粒度混合精度量化策略。实验表明,MoQa在语言建模任务中实现了困惑度的显著降低,在零样本推理任务中实现了准确率的提升。MoQa不仅解决了传统量化方法在MoE场景中的局限性,还展示了对未来MoE构建和优化的重要作用。 适合人群:对深度学习、特别是专家混合模型(MoE)和模型压缩技术感兴趣的科研人员和工程师,以及希望深入了解MoE量化方法的研究者。 使用场景及目标:①分析MoE中复杂的数据模型分布,理解稀疏数据激活、数据参数映射和专家间相关性的动态变化;②开发适应不同数据激活和专家组合场景的细粒度混合精度量化策略;③评估MoQa在语言建模和零样本推理任务中的性能,验证其优于传统量化方法的效果。 其他说明:MoQa通过多阶段数据模型分布分析,揭示了MoE量化中的独特挑战和机遇。与传统量化方法相比,MoQa不仅考虑了数据分布的复杂性,还深入探讨了专家模型的重要性及其参数相关性。因此,MoQa在确保通用性的同时实现了优越的量化性能,适用于各种数据分布和MoE架构。阅读本文时,建议重点关注多阶段分析的具体步骤和实验结果,以更好地理解MoQa的设计理念和实际效果。

2025-04-08

### 强化学习VAPO:用于高级推理任务的高效可靠强化学习框架设计与实现

内容概要:本文介绍了VAPO(基于价值的增强近端策略优化)框架,专为基于价值范式的推理模型设计,尤其适用于长链思考(long-CoT)推理任务。VAPO通过系统设计缓解了价值模型偏差、异构序列长度和奖励信号稀疏性三大挑战,显著提升了长CoT推理任务的表现。在AIME 2024数据集上,VAPO基于Qwen 32B预训练模型,仅需5,000步训练即可达到最先进水平,且多次独立运行中均未发生训练崩溃,表现出卓越的稳定性和效率。 适合人群:对强化学习和大型语言模型有兴趣的研究人员和技术人员,尤其是从事长链思考推理任务的开发者。 使用场景及目标:① 解决长链思考推理任务中的价值模型偏差、异构序列长度和奖励信号稀疏性问题;② 提升基于价值范式的推理模型的性能和稳定性;③ 通过多种技术创新(如价值预训练、解耦GAE、长度自适应GAE等)优化训练过程,实现更高的训练效率和更佳的推理能力。 其他说明:VAPO在实验中展示了显著优于现有无价值方法(如DAPO和DeepSeek-R1-Zero-Qwen-32B)的性能,特别是在处理复杂推理任务时表现出色。建议读者深入理解VAPO的设计理念和技术细节,以便更好地应用于实际项目中。

2025-04-08

### 文章标题: 【自然语言处理】基于ChatGPT的REFORMER框架:提升Text-to-SQL模型的数据合成与增强系统设计

内容概要:本文介绍了REFORMER,一个由ChatGPT驱动的数据合成框架,旨在解决Text-to-SQL模型因训练数据不足而导致的泛化能力差的问题。REFORMER通过“检索-编辑”方法,利用ChatGPT生成新的(问题,SQL查询)对,无需额外训练。该框架还引入了问题-查询-问题循环一致性验证,确保生成数据的质量。此外,REFORMER探索了两种数据增强技术:带模式信息的直接改写和使用构造SQL查询描述的改写。实验结果表明,REFORMER在多个评估指标上均优于之前的增强方法。 适合人群:对自然语言处理和SQL查询生成感兴趣的科研人员、工程师,尤其是从事Text-to-SQL模型开发和优化的专业人士。 使用场景及目标:①生成更多样化和高质量的(问题,SQL查询)对以增强Text-to-SQL模型的训练数据;②通过ChatGPT生成新的SQL查询和问题改写,提升模型的泛化能力和适应新领域的能力;③验证生成数据的一致性和质量,确保其符合预期。 阅读建议:本文不仅展示了REFORMER的技术细节和实验结果,还讨论了其局限性和未来研究方向。读者应重点关注框架的设计思路、实验设置和结果分析,以理解ChatGPT在数据增强中的应用潜力。同时,建议结合实际应用场景,思考如何利用REFORMER提升现有Text-to-SQL系统的性能。

2025-04-08

### 【多智能体系统】基于强化学习的集中式多智能体协调框架:联合动作顺序构造方法设计与实验评估

内容概要:本文提出了一种集中式的多智能体学习框架,旨在通过引入一个名为“监督器”的元智能体,将联合动作抽象为顺序动作分配,从而解决集中式方法常见的动作空间爆炸问题。监督器将多智能体问题转化为单智能体问题,通过强化学习训练,简化了集中控制下的多智能体协调。实验结果显示,该方法在不同规模的多智能体环境中成功协调了智能体行为,尤其在智能体间交互较少的任务中表现优异。 适合人群:对多智能体系统、强化学习及深度学习感兴趣的科研人员和工程师,特别是那些希望深入了解集中式多智能体学习方法及其应用的人群。 使用场景及目标:①解决集中式多智能体学习中的可扩展性问题;②通过监督器实现多智能体行为的有效协调;③在智能体交互较少的任务中提升协调效果。 其他说明:该方法适用于多种多智能体任务,如交通管理、战斗模拟等。实验结果表明,该方法在智能体数量增加时仍能保持良好的性能,但在智能体间交互频繁的任务中可能遇到挑战。未来工作将探索更多智能体交互的任务,并与其他联合动作空间方法进行比较。

2025-04-08

### 【人工智能领域】基于自原则批评调整的通用奖励建模推理时间扩展研究题:基于自

内容概要:本文探讨了通过自原则批评调整(SPCT)方法提升生成式奖励模型(GRM)的推理时间可扩展性,从而改进大型语言模型(LLMs)的奖励建模(RM)。研究团队提出了逐点生成式奖励建模(GRM),通过基于规则的在线强化学习(RL)自适应生成原则和批评,以提高奖励质量。此外,通过并行采样和元RM引导投票,实现了更有效的推理时间扩展。实验证明,SPCT显著提升了DeepSeek-GRM模型的质量和可扩展性,在多个RM基准测试中表现优异,尤其在推理时间扩展方面优于现有方法。 适合人群:具备一定机器学习和自然语言处理基础,尤其是对强化学习和奖励建模感兴趣的科研人员和技术开发者。 使用场景及目标:①用于改进大型语言模型在推理时间扩展中的奖励建模;②提升生成式奖励模型在不同领域中的通用性和性能;③通过并行采样和元RM引导投票,实现更高效的推理时间扩展。 其他说明:本文详细介绍了SPCT方法的理论背景、实现细节和实验结果,并讨论了其局限性和未来研究方向。DeepSeek-GRM模型及相关资源将被开源,以促进社区进一步的研究和发展。

2025-04-08

### 【人工智能与物理学】基于MASS模型的AI科学家在物理系统中的理论一致性研究

内容概要:本文探讨了两位AI科学家是否能在同一科学任务上达成一致。研究提出了MASS(作为AI科学家的哈密顿-拉格朗日神经网络),通过训练多个AI科学家在经典力学问题上学习不同理论,并通过实验验证了AI科学家在不同物理系统上学习理论的一致性和多样性。研究表明,AI科学家倾向于学习相似的理论,尤其是在复杂系统上,拉格朗日描述表现出了更好的泛化能力。此外,研究还展示了MASS在高维物理问题上的适用性,如混沌双摆和多体引力问题。 适合人群:对机器学习、物理学和AI科学家感兴趣的科研人员,尤其是从事物理系统建模和机器学习算法设计的研究者。 使用场景及目标:①理解AI科学家在不同物理系统上学习理论的一致性和多样性;②探索AI科学家在复杂物理问题上的表现,如拉格朗日描述的优越性;③评估MASS在高维物理问题上的适用性和准确性。 其他说明:本文不仅展示了AI科学家在学习物理理论方面的潜力,还强调了拉格朗日描述在复杂物理系统中的优势。研究结果为进一步构建更具可解释性和能力的AI科学家奠定了基础。未来工作可以扩展到更高维度问题、不同坐标系下的实验,以及探索不同的损失函数和模型架构。

2025-04-08

### 文章标题: 【AI助手与知识图谱】基于思维知识图(KGoT)的高效AI助手架构设计:降低运营成本与提升任务成功率摘要: 本文介绍

内容概要:本文介绍了思维知识图(KGoT),一种创新的AI助手架构,旨在通过将大型语言模型(LLM)推理与动态构建的知识图谱(KGs)集成,提供一种经济高效且高性能的AI助手解决方案。KGoT通过将任务相关知识结构化为KG表示,并通过外部工具(如数学求解器、网络爬虫和Python脚本)迭代增强,使低成本模型能够有效解决复杂任务。评估结果显示,KGoT在GAIA基准测试中比Hugging Face Agents等现有方案提高了任务成功率,同时降低了运营成本。KGoT的架构包括图存储模块、控制器和集成工具,支持模块化和可扩展设计。 适合人群:对AI助手开发感兴趣的科研人员、工程师和技术爱好者,尤其是关注高性能和低成本解决方案的人群。 使用场景及目标:①需要解决复杂任务,如网页导航、代码执行、图像推理、科学问答和多模态任务;②希望在不影响性能的前提下大幅降低运营成本;③寻求可扩展、经济实惠且高性能的AI助手解决方案。 其他说明:KGoT不仅在任务成功率上超越了现有LLM驱动的代理解决方案,还在成本效益方面表现出显著优势。其灵活的设计使其适用于多种应用场景,如自动化研究、数据驱动决策和多模态推理。未来工作可以探索将KGoT与更多外部工具集成或与高级图预测方案结合,以进一步提升其性能和适用性。

2025-04-08

### 【自然语言处理】大型语言模型推理能力的预训练扩展规律研究:基于知识图谱的多跳推理任务分析

内容概要:文章探讨了大型语言模型(LLMs)推理能力与模型扩展之间的关系,特别是在预训练阶段。作者通过构建合成知识图谱(KGs)来模拟真实世界的推理场景,设计了一种多跳推理任务,旨在评估模型在不完整图中推断缺失边的能力。研究发现,随着模型大小的增加,推理性能呈现出U形曲线,即存在一个最佳模型大小,过大或过小的模型都会导致推理性能下降。作者还提出了一种经验性扩展规律,将知识图谱的搜索熵线性映射到最佳模型大小,为优化LLMs的推理能力提供了理论依据。 适合人群:对自然语言处理、深度学习尤其是大型语言模型有兴趣的研究人员和工程师;从事机器学习模型设计和优化的专业人士。 使用场景及目标:①帮助研究人员理解语言模型在推理任务中的行为模式;②为模型设计者提供优化推理性能的实际指导;③探索如何通过调整模型大小和数据结构来提升特定任务的表现。 阅读建议:本文涉及大量实验和数据分析,建议读者先快速浏览全文以了解研究背景和主要结论,再深入阅读感兴趣的具体实验部分。对于技术细节,如图生成算法和扩展规律的推导,可以结合附录和相关文献进行更深入的理解。

2025-04-08

【计算机教育】DeepSeek-V3在计算机网络教育中的实证研究:评估模型效能与跨语言适应性

内容概要:本文研究了DeepSeek-V3在计算机网络教育中的应用效果,通过使用CCNA模拟题库和中国网络工程师认证考试题库作为评估标准,揭示了模型的优势和局限性。研究发现,DeepSeek-V3在低阶事实记忆任务中表现优异,但在高阶推理问题上存在明显局限;其在中文和英文问题上的表现一致,显示出良好的跨语言适应能力;模型在安全性基础方面表现出高精度,但在复杂内容如IP连接性和网络访问方面存在不足;此外,模型回答的一致性与其准确性呈强相关关系,可作为评估模型可靠性的有效指标。 适合人群:从事计算机网络和安全领域教学的教师、研究人员以及希望了解大型语言模型在教育领域应用的学生和专业人士。 使用场景及目标:①评估DeepSeek-V3在计算机网络教育中的具体表现;②为改进大型语言模型在教育中的应用提供实证依据;③探索如何通过模型优化提升其在复杂主题和高阶推理问题上的表现。 其他说明:本研究不仅为DeepSeek-V3在计算机网络教育中的应用提供了实证支持,还指出了未来研究的方向,特别是如何增强模型的推理能力和跨领域适应性,以更好地满足专业教育的需求。

2025-04-04

医疗领域大型语言模型DeepSeek R1医疗推理能力分析:评估模型推理过程及错误模式以提升临床决策支持系统性能

内容概要:本文深入探讨了大型语言模型(LLM)在医疗推理中的应用潜力及其局限性,以DeepSeek R1为例进行了详尽分析。研究表明,LLM在医学考试中表现优秀,但在实际临床推理中仍面临挑战,如锚定偏见、整合矛盾数据困难等。研究通过分析DeepSeek R1处理100个临床问题的表现,发现其诊断准确率达93%,且推理长度越长往往正确性越低。这提示推理长度可作为逆置信度评分,帮助医生判断模型输出的可靠性。此外,研究还提出了通过检索增强生成(RAG)、特定医学领域提示优化等方法进一步提升模型性能的建议。 适合人群:对人工智能和医疗领域感兴趣的科研人员、临床医生、医疗AI开发者及相关政策制定者。 使用场景及目标:①理解大型语言模型在医疗推理中的优势与不足;②学习如何利用推理长度评估模型输出的可靠性;③探索通过优化提示策略和微调方法提升模型性能的具体途径。 其他说明:本研究强调了开发更透明和可解释的LLM的重要性,并提出了未来研究方向,包括构建稳健的评估框架、探索动态实时交互可能性以及开发人工智能-临床医生协作模型,以期使LLM成为可靠的决策支持工具。

2025-04-04

【软件工程领域】面向软件工程的人工智能:任务分类、挑战与前进路径了面向软件工程

内容概要:本文由MIT CSAIL、加州大学伯克利分校、康奈尔大学和斯坦福大学等机构的研究人员共同撰写,探讨了面向软件工程的人工智能(AI)所面临的挑战与路径。文章首先介绍了AI在软件工程领域取得的显著进展,并指出要实现高度自动化,使人类能够专注于关键决策,而大多数常规开发工作可以被自动化取代,仍需学术界和工业界的共同努力。文章随后提供了一个面向软件工程的AI具体任务的结构化分类法,涵盖代码生成、代码转换、软件测试与程序分析、软件维护、支架与元代码、形式化验证等多个方面。每个任务根据范围、逻辑复杂性和人类干预水平进行衡量。接着,文章概述了当前AI方法面临的九个关键瓶颈,包括评估与基准、工具的有效使用、人机协作、长期代码规划、大规模范围和长上下文、代码库的语义理解、低资源语言和专用库、库和API版本更新、高逻辑复杂性和OOD域等。最后,文章提出了应对这些挑战的一系列研究方向,如数据收集、训练、推理时间方法等,以期推动AI在软件工程中的进一步发展。 适合人群:对软件工程和人工智能感兴趣的科研人员、工程师及高校师生。 使用场景及目标:①帮助科研人员了解AI在软件工程中的现状与挑战;②为工程师提供改进自动化工具的思路;③指导高校师生开展相关领域的研究与教学。 其他说明:本文不仅总结了当前AI在软件工程中的进展,还指出了未来研究的方向,鼓励学术界和工业界共同努力,以实现AI在软件工程中的更大潜力。文章引用了大量最新的研究成果和案例,为读者提供了详实的参考资料。

2025-04-03

### 【自然语言处理】基于强化学习的部分奖励优化Text-to-SQL任务:推理-SQL系统设计与性能提升

内容概要:本文介绍了一种名为Reasoning-SQL的新方法,它使用SQL定制部分奖励的强化学习(RL)以增强Text-to-SQL任务。Text-to-SQL任务涉及自然语言理解、数据库模式理解和精确的SQL查询生成,传统方法依赖于监督微调(SFT),在复杂推理上表现不佳。Reasoning-SQL通过引入部分奖励(如模式链接、AI反馈、n-gram相似性和语法检查)和组相对策略优化(GRPO)来克服奖励稀疏性问题,显著提升了模型的推理能力和泛化能力。实验结果显示,该方法在多个基准测试中超越了现有方法,特别是在BIRD基准测试中,14B参数的模型性能优于更大规模的专有模型。 适合人群:具备一定机器学习和自然语言处理基础的研究人员和技术人员,尤其是对强化学习和Text-to-SQL任务感兴趣的读者。 使用场景及目标:①理解如何通过部分奖励和RL优化Text-to-SQL模型的推理能力;②学习如何设计和实现适合Text-to-SQL任务的奖励函数;③评估Reasoning-SQL方法在不同基准测试中的表现,特别是在泛化和推理效率方面。 其他说明:此方法不仅在性能上优于传统的SFT方法,还在成本效益方面表现出色,能够在单个GPU上部署的情况下达到最先进的性能。实验还表明,RL训练促进了模型的结构化推理能力,使其在复杂查询中表现更好。

2025-04-03

ActionStudio:轻量级动作模型数据与训练框架

内容概要:本文介绍了ActionStudio,一个专为动作模型设计的轻量且可扩展的数据与训练框架。ActionStudio通过标准化格式统一了异构代理轨迹,支持多种训练范式(如LoRA、全微调和分布式设置),并集成了强大的预处理和验证工具。它在公共和现实行业的基准测试中展示了强大的性能和实际的可扩展性。ActionStudio的贡献包括:1)轻量且可扩展的训练框架,支持模块化的训练工作流;2)实现自动化的数据管道,涵盖数据收集、格式统一、质量过滤和格式转换;3)在公共和现实行业基准测试中验证了有效性。; 适合人群:具备一定编程基础,对动作模型和代理系统感兴趣的开发者和研究人员。; 使用场景及目标:①支持多样化的代理数据源转换为标准化、训练就绪的格式;②支持多种训练范式,包括LoRA、全微调和分布式训练;③提高模型训练效率和可扩展性,特别是在现实世界代理应用中;④提供即用型数据集,加速模型训练。; 其他说明:ActionStudio旨在解决现有基础设施对可扩展、特定代理的微调支持有限的问题。它不仅提供了高效的训练管道,还开源了代码和数据以促进社区研究。在NexusRaven和Salesforce CRM代理基准上的评估证明了其有效性和实用性。用户可以在GitHub上找到开源代码和数据。

2025-04-02

Unicorn: 用于视觉语言模型训练的纯文本数据合成

视觉语言模型(VLMs)的快速发展 (H. Liu 等人, 2023, 2024; Zhu 等人, 2023) 进一步强调了大规模高质量图像-文本对训练数据的重要性 (Chen 等人, 2023; Zhao, Zhou 和 Shou, 2024; Bai 等人, 2024) 。然而,扩大这种高质量数据的规模仍然是一个持续的挑战,限制了 VLMs 的进一步突破。 获取图像-文本对的传统方法主要依赖于两种策略:(1) 手动标注 (Lin 等人, 2015; Plummer 等人, 2016) 。手动标注确保质量但受限于成本、规模和多样性。(2) 大规模网络爬取 (Sharma 等人, 2018) 可扩展但引入了数据质量问题不一致、合规风险和版权问题。最近的研究,如 ShareGPT4V (Chen 等人, 2023) ,探索了使用高级模型(如 GPT-4v)生成细粒度标题来增强真实图像的方法,从而生成高质量的数据集,在视觉-语言任务中取得了显著改进。然而,这些合成数据方法仍然面临巨大的成本约束。相比之下,文本数据 (Wu 等人, 2024; Long 等人, 2024

2025-03-31

基于大型模型的多任务语义通信

人工智能(AI)有望彻底改变下一代通信系统的 设计、优化和管理。在本文中,我们探讨了通过利用大型AI模型(LAMs)的多模态数据处理和生成能力将其集成到语义通信(SemCom)中。尽管LAMs具备前所未有的从原始数据中提取语义的能力,但这种集成带来了多方面的挑战,包括 高资源需求、模型复杂性以及跨 多样模态和任务的适应性需求。为克服这些挑战,我们提出了一种基于LAM的多任务SemCom(MTSC)架构,其中包括一种自适应模型压缩策略和一种联合分割微调 方法,以促进在 资源受限 网络中高效部署基于LAM的语义模型。此外,还实现了一种检索增强生成方案,通过综合最新的本地和全局知识库 来 提高语义提取和内容生成的准确性,从而改善推理性能。最后,仿真结果证明了所提出的基于LAM的MTSC架构的有效性,突显了在不同信道条件下各种下游任务性能 的提升。

2025-03-31

Dewey 长上下文嵌入模型:技术报告

本技术报告介绍了开源dewey_en_beta嵌入模型的训练方法和评估结果。随着检索增强生成(RAG)系统的日益需求以及大型语言模型(LLMs)上下文窗口能力的扩展,传统嵌入模型面临了关键挑战。当前的方法在处理超出典型序列长度限制的文档时,往往难以保持语义连贯性,这显著影响了知识密集型应用中的检索性能。本文介绍了dewey_en_beta,一种新型文本嵌入模型,在MTEB(Eng, v2)(Enevoldsen等,2025) 和 LongEmbed基准测试(Zhu等,2024)中表现出色,并支持128K令牌序列。我们的技术贡献集中在块对齐训练上,这是一种创新方法,通过蒸馏同时生成局部块嵌入和全局文档级表示 (Zhang等,2025)。有关模型发布的更多信息,请访问 https://huggingface.co/infgrad /dewey_en_beta.

2025-03-30

实时评估模型在RAG中的应用:谁最能检测到幻觉?

本文调查了用于自动检测检索增强生成(RAG)中幻觉的评估模型,并对这些模型在六个RAG应用中的表现进行了全面基准测试。我们研究中包含的方法有:LLM-as-a-Judge、Prometheus、Lynx、Hughes 幻觉评估模型(HHEM)和可信语言模型(TLM)。这些方法都不需要参考标准答案/标签即可捕捉到不正确的LLM响应。我们的研究表明,在各种RAG应用中,其中一些方法能够以高精度/召回率一致地检测到不正确的RAG响应。用于重现我们基准测试的代码可在此处获取:https://github.com/cleanlab/cleanlab-tools/tree/main/benchmarking_hallucination_model

2025-03-30

我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡

快速的技术演变加速了各领域的软件开发,导致全球碳排放量不断增加。尽管大型语言模型(LLMs)声称可以帮助开发人员优化代码以提高性能和能源效率,但它们在现实世界中的实际效果仍需进一步探索,特别是在科学和工程领域,这些领域的编码实践和环境差异较大,而绿色编码意识较低。此外,对于LLMs所应用的优化策略及其与人类推理的一致性程度知之甚少。 为填补这些空白,我们评估了LLMs在减少现实世界Matlab项目环境足迹方面的有效性——Matlab是一种在学术界和工业界广泛用于科学和工程应用的语言。与之前关于玩具程序或基准测试的研究不同,我们分析了来自100个顶级GitHub仓库的400个Matlab脚本的能量优化。领先的LLMs——GPT-3、GPT-4、Llama和Mixtral——以及一位资深Matlab开发人员对这些脚本进行了优化,我们从能耗、内存使用、执行时间消耗和代码正确性等方面对其进行了评估。开发人员作为现实世界的基线,用于比较典型的人类和LLM生成的优化。 我们将2176个提出的优化方案映射到13个高级主题,发现LLMs提出了广泛的改进——超越了能源效率——包括改善代码可读性和可维护性

2025-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除