- 博客(1145)
- 收藏
- 关注
原创 ExeSQL:通过执行驱动的引导生成自我学习的文本到SQL模型以应对SQL方言
最近的文本到SQL模型虽然取得了强大的性能,但其有效性在很大程度上仍局限于SQLite,这是由于数据集的限制。然而,现实世界的应用需要在具有不同语法和专业功能的多个SQL方言中生成SQL,这对当前模型来说仍然是一个挑战。构建方言感知模型的主要障碍在于获取高质量的方言特定数据。仅通过静态提示生成的数据,在没有通过执行验证SQL的情况下,往往噪声大且不可靠。此外,训练循环中缺乏真实的执行环境,防止模型将其预测基于可执行语义,尽管通过数据过滤在表面水平上有所改进,但仍然限制了泛化能力。
2025-06-04 22:51:55
881
原创 震荡揭示:基于扰动的LLM幻觉检测
幻觉仍然是在真实世界问答任务中可靠部署大型语言模型(LLMs)的关键障碍。一种广泛采用的幻觉检测策略,即自我评估,依赖于模型自身的输出置信度来估计其答案的事实准确性。然而,这种策略假设模型的输出分布能够密切反映真实数据分布,这在实际应用中可能并不总是成立。随着模型各层中的偏差不断累积,最终输出可能会偏离底层推理过程,从而使输出级别的置信度成为幻觉检测的一个不可靠信号。在这项工作中,我们提出了样本特定提示(SSP),这是一种新的框架,通过分析中间表示对扰动的敏感性来改进自我评估。
2025-06-04 22:47:05
866
原创 Pt-SQL:通过高资源编程语言的精细指导增强Text-to-SQL
Text-to-SQL 将用户查询从自然语言转换为可执行的SQL程序,使非专家能够与复杂数据库交互。现有的基于提示的方法精心设计了文本指南和示例以促进SQL生成,但由于文本和低资源SQL程序之间的语义差距较大,其准确性受到限制。在本工作中,我们提出了Pt-SQL,它引入高资源Python程序作为桥梁,连接自然语言查询和SQL程序。特别是,Pt-SQL首先生成提供细粒度逐步指南的Python程序(在其代码块或注释中),然后根据每个Python程序的指导生成SQL程序。
2025-06-04 22:42:25
905
原创 开放集生活需求预测与大型语言模型
生活需求是人们在日常生活中为了生存和幸福而产生的需求。在像美团这样的生活服务平台上,用户购买行为由生活需求驱动,因此准确的生活需求预测对于个性化服务推荐至关重要。传统方法将此预测视为闭集分类问题,严重限制了其捕捉生活需求多样性和复杂性的能力。在这项工作中,我们将生活需求预测重新定义为一个开放集分类问题,并提出了PIGEON,这是一个利用大型语言模型(LLMs)进行无限制需求预测的新系统。
2025-06-04 22:37:50
992
原创 大型语言模型中出现的线性空间世界模型
大型语言模型(LLMs)在各种任务中展示了新兴能力,引发了它们是否获取内部世界模型的问题。在这项工作中,我们研究了LLMs是否隐含地编码了线性空间世界模型,我们将之定义为物理空间和物体配置的线性表示。我们引入了一个形式化的空间世界模型框架,并评估这种结构是否在上下文嵌入中出现。使用一个合成数据集中的物体位置,我们训练探测器以解码物体位置并评估底层空间的几何一致性。我们进一步进行因果干预,测试这些空间表示是否被模型功能化使用。我们的结果提供了实证证据,证明LLMs编码了线性空间世界模型。
2025-06-04 22:34:24
1242
原创 针对本地生活服务的大规模语言模型的基准测试与改进
大规模语言模型(LLMs)在各个领域展现了显著的能力,并取得了重大突破,近年来得到了广泛应用。在此基础上,我们研究了它们在本地生活服务领域的潜力。本研究中,我们建立了一个全面的基准,并系统评估了各种LLMs在与本地生活服务相关的广泛任务中的表现。为进一步提高其有效性,我们探索了两种关键方法:模型微调和基于代理的工作流程。我们的研究发现,即使是一个相对紧凑的7B模型也能达到比大得多的72B模型相当的性能水平,有效平衡了推理成本和模型能力。
2025-06-04 22:30:05
563
原创 LogicCat:一个多领域推理挑战的链式思维文本到SQL基准
文本到SQL是自然语言处理中的一个基本任务,旨在将自然语言问题转化为有意义且可执行的SQL查询。尽管现有的数据集广泛且主要集中在业务场景和操作逻辑上,但它们通常缺乏特定领域的知识和复杂的数学推理覆盖。为了解决这一空白,我们提出了一种新颖的数据集,专为SQL推理中的复杂推理和链式思维分析而设计,涵盖了物理、算术、常识和假设推理。该数据集包含4,038个英文问题,每个问题都配有一个独特的SQL查询,并附有12,114个逐步推理注释,跨越了45个不同领域的数据库。
2025-06-04 22:27:16
988
原创 FAuNO:边缘系统中任务卸载的半异步联邦强化学习框架
Frederico Metelo †∗{ }^{\dagger *}†∗ Alexandre Oliveira †{ }^{\dagger}†, Stevo Racković ‡{ }^{\ddagger}‡, Pedro Ákos Costa †{ }^{\dagger}†, Cláudia Soares †{ }^{\dagger}††{ }^{\dagger}† NOVA School of Science and Technology, Lisbon, Portugal‡{ }^{\ddagger}
2025-06-04 22:24:19
881
原创 真正评估大型语言模型的流体智力通过动态推理评估
近年来,大型语言模型(LLMs)在展示令人印象深刻的推理能力方面取得了显著进展,这些能力类似于人类思维。然而,LLMs 是否具备真正的流体智力(即,在新情况下抽象推理和泛化规则的能力)仍然是一个开放的问题。现有的推理基准要么专注于特定领域的知识(结晶智力),要么缺乏可解释性。为了解决这些局限性,我们提出了 DRE-Bench,这是一个基于分层认知框架的动态推理评估基准。DRE-Bench 包括分布在四个认知层次上的 36 个抽象推理任务,每个任务都具有多个动态变体,用于测试相同的潜在隐含规则。
2025-06-04 22:20:14
787
原创 TaxAgent: 大型语言模型设计财政政策
经济不平等是全球面临的挑战,加剧了教育、医疗和社会稳定方面的差异。传统的系统如美国联邦所得税减少了不平等,但缺乏适应性。尽管像Saez最优税收这样的模型能够动态调整,但它们未能解决纳税人异质性和非理性行为的问题。本研究介绍了TaxAgent,这是一种将大型语言模型(LLMs)与基于代理的建模(ABM)相结合的新方法,用于设计自适应税制。在我们的宏观经济模拟中,异质性的H-Agents(家庭)模拟真实世界的纳税人行为,而TaxAgent(政府)利用LLMs迭代优化税率,平衡公平和生产力。
2025-06-04 22:19:19
1019
原创 为什么AI代理使用人类语言进行交流?
大型语言模型(LLMs)已成为现代AI代理系统的基础,使自主代理能够进行推理和规划。在大多数现有系统中,代理间的通信主要依赖于自然语言。虽然这种设计支持了可解释性和人类监督,我们认为它在代理到代理的协调中引入了根本性的局限性。自然语言的语义空间与LLMs操作的高维向量空间在结构上不一致,导致信息丢失和行为漂移。除了表面效率低下之外,我们还强调了一个更深层次的架构局限:当前的LLM并非以支持代理行为为目标而训练的。因此,它们缺乏对角色连续性、任务边界和多代理依赖关系建模的机制。
2025-06-04 22:17:47
794
原创 从提示到保护:大型语言模型驱动的上下文学习在智能公共安全无人机中的应用
公共安全无人驾驶飞行器(UAV)在应急响应中增强了态势感知能力。其敏捷性和优化机动性以及建立视线(LoS)通信的能力使其在管理诸如灾害响应、搜救和野火监测等紧急情况中变得越来越重要。尽管深度强化学习(DRL)已被应用于优化无人机导航和控制,但其高训练复杂性、低样本效率以及模拟到现实的差距限制了其在公共安全领域的实用性。最近大型语言模型(LLMs)的进步提供了一个有吸引力的替代方案。
2025-06-04 22:16:44
626
原创 Surfer-H 遇见 Holo1:由开放权重驱动的高性价比网络代理
我们介绍了 Surfer-H,这是一种高性价比的网络代理,它集成了视觉语言模型 (VLM) 来执行用户定义的任务。我们将它与 Holo1 配对,Holo1 是一组新的开源权重 VLM,专门用于网络导航和信息提取。Holo1 在精心策划的数据源上进行了训练,包括开放访问的网络内容、合成示例和自产代理数据。Holo1 在通用用户界面 (UI) 基准测试以及我们新的网络 UI 定位基准 WebClick 中名列前茅。当由 Holo1 提供支持时,Surfer-H 在 WebVoyager 上实现了92.2。
2025-06-04 22:15:46
1213
原创 使用LLM的DPO学习-计算机使用代理的判断信号
计算机使用代理(CUA)是自动与图形用户界面(GUI)交互以完成任务的系统。随着大型视觉-语言模型(VLM)的出现,CUA取得了显著进展。然而,这些代理通常依赖于计算需求巨大的基于云的推理,这引发了关键的隐私和可扩展性问题,尤其是在个人设备上运行时。在本研究中,我们通过开发一种完全在本地机器上运行的轻量级视觉-语言模型,向隐私保护和资源高效的代理迈进了一步。为了训练这个紧凑型代理,我们引入了一个LLM-as-Judge框架,该框架能够自动评估和过滤合成交互轨迹,无需人工注释即可生成高质量数据以进行强化学习。
2025-06-04 22:14:20
944
原创 基于分数的生成建模进行条件独立性测试
任一新*yxren21@m.fudan.edu.cn复旦大学中国上海李柯keli.kl@alibaba-inc.com阿里巴巴集团中国杭州张浩h.zhang10@siat.ac.cn中国科学院深圳先进技术研究院中国深圳金成厚 ∗{ }^{*}∗jinch24@m.fudan.edu.cn复旦大学中国上海黄龙涛kaiyang.hlt@alibaba-inc.com阿里巴巴集团中国杭州关继红 †{ }^{\dagger}†jhguan@tongji.edu.cn同济大学中国上海夏业伟ywxia23@.m.fud
2025-06-01 21:27:48
982
原创 上下文鲁棒知识编辑用于语言模型
朴海婉 1∗{ }^{1 *}1∗, 崔圭彬 1∗{ }^{1 *}1∗, 金珉俊 2{ }^{2}2, 赵友汉 1†{ }^{1 \dagger}1†1{ }^{1}1 首尔国立大学数据科学研究生院,2{ }^{2}2 光州科学技术院电气工程与计算机科学系{dellaanima2,yeppi315,yohan.jo}@snu.ac.krminjun01@gist.ac.kr知识编辑(KE)方法为修改大型语言模型中的知识提供了一种有效方式。当前的KE评估通常仅通过考虑被编辑的知识来评估编辑的成功,而没有上下
2025-06-01 21:07:56
817
原创 AgentAlign:从信息型到代理型大型语言模型转变中的安全对齐导航
代理能力的获取使LLM(大型语言模型)从“知识提供者”转变为“行动执行者”,这一趋势虽然扩展了LLM的能力边界,但显著增加了其被恶意使用的可能性。先前的研究表明,即使在未受攻击的情况下,当前基于LLM的代理仍然会执行大量恶意任务,这表明在训练后阶段,代理使用安全性对齐存在不足。为解决这一问题,我们提出了AgentAlign,这是一种利用抽象行为链作为安全对齐数据合成媒介的新框架。通过在模拟环境中实例化这些行为链并结合多样化的工具实例,我们的框架能够生成高度真实且可执行的指令,同时捕捉复杂的多步骤动态。
2025-06-01 20:58:05
577
原创 机器遗忘是否真正移除了模型知识?大型语言模型中的遗忘审计框架
近年来,大型语言模型(LLMs)取得了显著进展,吸引了研究界的广泛关注。其能力主要归功于大规模架构,这需要在海量数据集上进行广泛训练。然而,这些数据集通常包含从公共互联网获取的敏感或受版权保护的内容,引发了对数据隐私和所有权的关注。监管框架,如《通用数据保护条例》(GDPR),赋予个人要求删除此类敏感信息的权利。这促使了机器遗忘算法的发展,旨在无需昂贵的重新训练即可从模型中移除特定知识。尽管有这些进展,但由于LLMs固有的复杂性和生成性质,评估遗忘算法的有效性仍然是一个挑战。
2025-06-01 20:51:46
496
原创 增强还是不增强?纯大语言模型推荐系统与增强型大语言模型推荐系统的比较研究
大语言模型(LLMs)通过提供更丰富的语义理解和整合隐含的世界知识,为推荐系统引入了新的范式。在本研究中,我们提出了一种系统化的分类法,将现有方法分为两类:(1) 纯 LLM 推荐系统,完全依赖于 LLMs;(2) 增强型 LLM 推荐系统,通过整合额外的非 LLM 技术来提升性能。这种分类法为审视基于 LLM 的推荐系统的发展提供了全新的视角。为了支持公平比较,我们引入了一个统一的评估平台,在一致的实验设置下对代表性模型进行基准测试,并突显影响有效性的关键设计选择。
2025-06-01 20:48:33
558
原创 哨兵:基于代理模型注意力探测的LLM上下文压缩的理解视角
检索增强生成(RAG)通过外部上下文增强了大语言模型(LLMs),但检索到的段落通常过长、噪声过多或超出输入限制。现有的压缩方法通常需要对专用压缩模型进行监督训练,增加了成本并降低了便携性。我们提出了哨兵(Sentinel),一种轻量级的句子级压缩框架,将上下文过滤重新定义为基于注意力的理解任务。与训练压缩模型不同,哨兵通过一个轻量级分类器从现成的0.5B代理LLM中探测解码器注意力,以识别句子相关性。经验上,我们发现查询-上下文相关性估计在不同模型规模之间是一致的,0.5B代理与更大模型的行为紧密匹配。
2025-06-01 20:46:10
1012
原创 阿拉伯语AI指纹:大型语言模型文本的文体分析与检测
大型语言模型(LLMs)在生成类人文本方面取得了前所未有的能力,在包括教育、社交媒体和学术在内的关键领域中对信息完整性构成了微妙但重大的挑战。这些挑战包括支持复杂的虚假信息活动、削弱医疗指导的可信度以及促进针对性宣传。这一挑战在像阿拉伯语这样的尚未充分探索且资源有限的语言中尤为严重。本文对阿拉伯语机器生成文本进行了全面研究,考察了多种生成策略(仅从标题生成、内容感知生成和文本优化)在不同模型架构(ALLaM、Jais、Llama和GPT-4)中的表现,并覆盖学术和社交媒体领域。
2025-06-01 20:44:24
817
原创 从知识到噪声:CTIM-Rover 和软件工程代理中情节记忆的陷阱
我们介绍了一种名为 CTIM-Rover1{ }^{1}1的 AI 代理,它基于 AutoCodeRover (张等,2024) 构建,并扩展了情节记忆框架,更具体地说是一种通用和存储库级别的跨任务实例记忆 (CTIM)。尽管现有的开源软件工程 (SE) 代理大多依赖于 ReAct (姚等,2023b),Reflexion (Shinn 等,2023) 或 CodeAct (王等,2024),但所有这些推理和规划框架在单个任务实例后都会低效地丢弃其长期记忆。
2025-06-01 20:41:45
753
原创 VLM-RRT:视觉语言模型引导的RRT搜索用于自主无人机导航
路径规划是自主无人飞行器(UAVs)的一项基本能力,使它们能够高效地朝目标区域导航或探索复杂环境,同时避开障碍物。传统的路径规划方法,如快速扩展随机树(RRT),已被证明是有效的,但往往面临重大挑战。这些问题包括高搜索空间复杂性、次优路径质量和收敛速度慢,在诸如灾难响应等高风险应用中尤为突出,这些情况下快速高效的规划至关重要。为了解决这些限制并提高路径规划效率,我们提出了视觉语言模型RRT(VLM-RRT),这是一种将视觉语言模型(VLMs)的模式识别能力与RRT的路径规划优势相结合的混合方法。
2025-06-01 20:40:18
896
原创 大型语言模型能否在医学图像分析中挑战卷积神经网络?
本研究提出了一种多模态人工智能框架,旨在精确分类医学诊断图像。通过使用公开可用的数据集,所提出的系统比较了卷积神经网络(CNNs)和不同大型语言模型(LLMs)的优势。这项深入的对比分析突出了诊断性能、执行效率和环境影响方面的关键差异。模型评估基于准确性、F1分数、平均执行时间、平均能耗以及估算的CO2CO2排放量。研究结果表明,尽管基于CNN的模型可以在结合图像和上下文信息的各种多模态技术中表现更优,但在LLMs的基础上增加额外的过滤可以显著提高性能。
2025-06-01 20:34:26
980
原创 朝着有效的AI治理迈进:原则综述
背景:人工智能(AI)治理是建立框架、政策和程序的实践,以确保AI系统的负责任、道德和安全开发与部署。尽管AI治理是负责任AI的核心支柱,但当前文献中仍缺乏对这些治理框架和实践的综合分析。目标:识别在AI治理的次级文献中强调哪些框架、原则、机制和利益相关者角色。方法:我们对IEEE和ACM(2020-2024年)中的九篇同行评审次级研究进行了快速三级回顾,使用结构化纳入标准和主题语义综合。结果:引用最多的框架包括欧盟AI法案和NIST RMF;透明度和问责制是最常见的原则。
2025-06-01 20:33:35
469
原创 OSS-UAgent:一种基于代理的开源软件可用性评估框架
可用性评估对于开源软件(OSS)的影响和采用至关重要,但传统的依赖人类评估者的方法存在高成本和有限可扩展性的问题。为了解决这些局限性,我们引入了OSS-UAgent,这是一种自动化、可配置且交互式的基于代理的可用性评估框架,专门设计用于开源软件。我们的框架使用由大语言模型(LLMs)驱动的智能代理来模拟不同经验水平(从初级到专家)的开发者执行编程任务。通过动态构建特定平台的知识库,OSS-UAgent确保准确且上下文感知的代码生成。
2025-06-01 20:31:30
916
原创 DCG-SQL:通过深度上下文模式链接图增强文本到SQL的上下文中学习
文本到SQL,即将自然语言问题转换为SQL查询,随着大型语言模型(LLMs)的上下文中学习而进步。然而,现有方法相比随机选择的示例,在性能上几乎没有改进,并且当使用较小的LLMs(如Llama 3.1-8B)时,性能显著下降。这表明这些方法过于依赖超大规模LLMs的内在能力,而不是有效地检索有用的示例。在本文中,我们提出了一种用于有效检索示例和生成SQL查询的新方法。我们构建了一个深度上下文模式链接图,其中包含问题与其数据库模式项之间的关键信息和语义关系。
2025-06-01 09:33:17
818
原创 Arctic-Text2SQL-R1:简单的奖励,强大的文本到SQL推理能力
将自然语言转换为SQL(Text2SQL)是一项长期挑战,位于自然语言理解和结构化数据访问的交叉点。尽管大型语言模型(LLMs)显著提高了SQL生成的流畅性,但生成正确且可执行的SQL——尤其是复杂的查询——仍然是一个瓶颈。我们提出了Arctic-Text2SQL-R1,这是一种强化学习(RL)框架和模型家族,旨在使用仅基于执行正确性的轻量级奖励信号生成准确且可执行的SQL。我们的方法避免了脆弱的中间监督和复杂的奖励塑造,促进了稳定训练并与最终任务对齐。
2025-05-31 21:56:28
931
1
原创 COBRA:确保战略代理如实报告的情境强盗算法
Arun Verma 1{ }^{1}1, Indrajit Saha 2{ }^{2}2, Makoto Yokoo 2{ }^{2}2, Bryan Kian Hsiang Low 1,3{ }^{1,3}1,31{ }^{1}1 新加坡-麻省理工学院技术联盟,新加坡共和国2{ }^{2}2 九州大学ISEE系,日本3{ }^{3}3 新加坡国立大学计算机科学系,新加坡共和国arun.verma@smart.mit.edu, indrajit@inf.kyushu-u.ac.jp, yokoo@inf.
2025-05-31 21:34:42
855
原创 段落策略优化:在强化学习中用于大型语言模型的有效段落级信用分配
郭一然 †{ }^{\dagger}†, 徐立杰 †∗{ }^{\dagger *}†∗, 刘杰 †∗{ }^{\dagger *}†∗, 叶丹 †{ }^{\dagger}†, 邱爽 ‡{ }^{\ddagger}‡†{ }^{\dagger}† 中国科学院软件研究所†{ }^{\dagger}† 中国科学院大学‡{ }^{\ddagger}‡ 香港城市大学{guoyiran23, xulijie, ljie, yedan}@otcaix.iscas.ac.cn shuanqiu@cityu.edu.hk
2025-05-31 21:04:54
610
原创 理性代理人在资源约束下的生存风险意识
具有代理能力的高级推理模型(AI代理)被部署用于与人类互动并解决基于(近似)效用函数和内部模型的顺序决策问题。当这些问题存在资源或失败约束时,一旦资源耗尽,行动序列可能会被迫终止,这使得代理面临隐含的权衡,从而重塑其效用驱动(理性)行为。此外,由于这些代理通常由人类委托人代表其行事,约束暴露的不对称性可能导致之前未预料到的人类目标与代理激励之间的错位。
2025-05-31 21:03:00
758
原创 EvoRefuse:用于评估和缓解大型语言模型对伪恶意指令过度拒绝的进化提示优化方法
吴晓瑞Wu1\mathbf{W u}^{1}Wu1,毛晓峰2{ }^{2}2,李飞Li1\mathbf{L i}^{1}Li1,张欣2{ }^{2}2,张霞露2{ }^{2}2,周军2{ }^{2}2,彭宇翔1{ }^{1}1,郑莉1{ }^{1}1,滕冲1{ }^{1}1,季东宏1{ }^{1}1,李壮Li3\mathbf{L i}^{3}Li31{ }^{1}1 航天信息安全与可信计算教育部重点实验室,武汉大学网络空间安全学院,中国武汉2{ }^{2}2 蚂蚁集团3{ }^{3}3 澳大利亚皇家墨尔本理
2025-05-31 20:57:30
585
原创 具有可信自主性的安全运营中心中的人工智能协作统一框架
AHMAD MOHSIN,数字未来中心,科学学院,伊迪斯科文大学,澳大利亚 HELGE JANICKE,数字未来中心,科学学院,伊迪斯科文大学,澳大利亚 AHMED IBRAHIM,数字未来中心,科学学院,伊迪斯科文大学,澳大利亚 IQBAL H. SARKER,数字未来中心,科学学院,伊迪斯科文大学,澳大利亚 SEYIT CAMTEPE,CSIRO’s Data61,澳大利亚本文提出了一种结构化的框架,用于安全运营中心(SOCs)中的人工智能协作,整合了人工智能自主性、信任校准和人在环路决策。
2025-05-31 20:39:27
1050
原创 主动层对比解码减少大型语言模型生成中的幻觉
最近的解码方法通过改进生成过程中下一个标记的选择方式,提高了大型语言模型 (LLMs) 的事实性。这些方法通常在标记级别操作,利用内部表示来抑制表面模式。然而,LLMs 在较长的上下文中仍然容易产生幻觉。在本文中,我们提出了主动层对比解码 (ActLCD),这是一种新颖的解码策略,它在生成过程中主动决定何时应用对比层。通过将解码视为一个顺序决策问题,ActLCD 运用由奖励感知分类器引导的强化学习策略,在超越标记级别的基础上优化事实性。
2025-05-31 20:36:24
826
原创 SafeScientist:通过LLM代理实现风险感知的科学发现
最近大语言模型(LLM)代理的进展显著加速了科学发现的自动化,但同时也引发了关键的伦理和安全问题。为系统地解决这些挑战,我们引入了SafeScientist,一个创新的人工智能科学家框架,旨在增强人工智能驱动的科学探索中的安全性和伦理责任。SafeScientist主动拒绝在伦理上不适当或高风险的任务,并在整个研究过程中严格强调安全性。为了实现全面的安全监督,我们集成了多种防御机制,包括提示监控、代理协作监控、工具使用监控和伦理审查组件。
2025-05-31 20:32:05
766
原创 大规模语言模型时代的自动形式化:综述
自动形式化——将非正式数学命题转化为可验证的形式化表示的过程——是自动化定理证明中的基础任务,为数学在理论和应用领域的使用提供了新的视角。得益于人工智能的快速发展,特别是大规模语言模型(LLMs)的推动,这一领域取得了显著进展,带来了新的机遇和独特挑战。在本综述中,我们从数学和LLM中心视角全面概述了自动形式化的最新进展。我们探讨了自动形式化如何应用于不同数学领域和难度级别,并分析了从数据预处理到模型设计与评估的端到端工作流。
2025-05-31 20:29:17
951
原创 第二意见很重要:通过专家模型集成的共识迈向自适应临床AI
尽管大型语言模型(LLMs)在临床应用中的采用日益增多,但目前的方法仍然严重依赖于单一模型架构。为了克服单模型系统过时和刚性依赖的风险,我们提出了一种新颖的框架,称为共识机制,旨在灵活整合多个“专家”模型的优势。模仿临床分诊和多学科临床决策制定,共识机制实施了由专业医疗“专家”代理组成的集成,从而在医学基准测试中实现了前所未有的性能,并且随着新的LLMs的出现具有强大的适应能力。这一过程使共识机制能够根据内部模型配置优化成本、延迟或性能。
2025-05-31 20:26:26
822
原创 TRAP: Targeted Redirecting of Agentic Preferences
由视觉-语言模型(VLMs)驱动的自主代理AI系统正迅速向实际部署迈进,然而其跨模态推理能力引入了新的对抗性操作攻击面,这些攻击利用跨模态的语义推理。现有的对抗攻击通常依赖于可见像素扰动或需要对模型或环境的特权访问,这使得它们在隐秘、现实世界的利用中不切实际。我们提出了TRAP,一种生成性的对抗框架,通过基于扩散的语义注入操纵代理的决策制定。我们的方法结合了基于负面提示的降级与正面语义优化,由双胞胎语义网络和布局感知的空间掩码引导。
2025-05-31 20:23:27
647
原创 Infi-MMR:通过多阶段强化学习在多模态小型语言模型中基于课程的解锁多模态推理
最近大型语言模型(LLMs)的发展展示了推理能力的重大进展,例如DeepSeek-R1 [1],它利用基于规则的强化学习显著增强了逻辑推理。然而,将这些成就扩展到多模态大型语言模型(MLLMs)面临关键挑战,对于多模态小型语言模型(MSLMs)而言尤其明显,因为它们通常具有较弱的基础推理能力:(1) 高质量多模态推理数据集的稀缺;(2) 因视觉处理集成而导致推理能力下降;(3) 直接应用强化学习可能产生复杂但不正确的推理过程的风险。
2025-05-31 20:19:36
933
原创 支持公共交通数据决策的代理聊天机器人设计与测试
评估公共交通服务的质量需要分析大量关于计划和实际行程的数据以及列出每项服务需满足的质量约束的文档。对于大多数用户而言,通过SQL查询来检索这些数据集、组织并可视化数据可能相当复杂。本文介绍了一款聊天机器人,它提供了一个用户友好的工具,用于与这些数据集交互并支持决策制定。该聊天机器人基于代理架构,扩展了核心大语言模型(LLM)的能力,使其能够与其他工具交互以执行多种任务,例如执行SQL查询、绘制数据图表以及根据行程及其站点的坐标创建地图。
2025-05-31 20:15:56
798
NLI4DB: 数据库的自然语言接口系统综述
2025-03-30
FutureGen:生成科学文章未来工作的LLM-RAG方法
2025-03-30
CausalRAG:将因果图整合到检索增强生成中
2025-03-30
RGL:一种以图为中心、模块化的高效图检索增强生成框架
2025-03-30
在RAG-Text2SQL系统中平衡内容大小
2025-03-29
MAPQA : 开放领域地理空间问答基于地图数据
2025-03-29
基于LLM的数据分析中的洞察生成方法
2025-03-29
V-SQL:一种基于视图的两阶段Text-to-SQL框架
2025-03-29
Genicious:用于洞察发现的情境化Few-shot提示
2025-03-29
通过答案-公式联合生成实现通用表格问答
2025-03-29
链式思维推理是否有助于移动GUI代理?一项实证研究
2025-03-29
DAgent:一种基于关系数据库驱动的数据分析报告生成代理
2025-03-29
多模态大语言模型时代的代理推荐系统展望
2025-03-29
MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断
2025-03-29
大型语言模型在问答任务中的代理综述
2025-03-29
SEAlign: 面向软件工程代理的对齐训练
2025-03-29
MemInsight:大型语言模型代理的自主记忆增强
2025-03-29
GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战
2025-03-29
用于零样本泛化到定性新任务的思考型智能体
2025-03-29
OmniNova:一个通用的多模态代理框架
2025-03-29
【生物信息学】双向分层蛋白质多模态表示学习:融合蛋白质语言模型与图神经网络提升蛋白质相关任务预测性能
2025-04-11
### 【自然语言处理】潜在专家混合(MoLE):用于资源高效语言模型的创新架构设计:本文介绍了潜在
2025-04-09
### 【人工智能模型压缩】MoQa:多阶段数据模型分布感知的MoE量化框架设计与优化
2025-04-08
### 强化学习VAPO:用于高级推理任务的高效可靠强化学习框架设计与实现
2025-04-08
### 文章标题: 【自然语言处理】基于ChatGPT的REFORMER框架:提升Text-to-SQL模型的数据合成与增强系统设计
2025-04-08
### 【多智能体系统】基于强化学习的集中式多智能体协调框架:联合动作顺序构造方法设计与实验评估
2025-04-08
### 【人工智能领域】基于自原则批评调整的通用奖励建模推理时间扩展研究题:基于自
2025-04-08
### 【人工智能与物理学】基于MASS模型的AI科学家在物理系统中的理论一致性研究
2025-04-08
### 文章标题: 【AI助手与知识图谱】基于思维知识图(KGoT)的高效AI助手架构设计:降低运营成本与提升任务成功率摘要: 本文介绍
2025-04-08
### 【自然语言处理】大型语言模型推理能力的预训练扩展规律研究:基于知识图谱的多跳推理任务分析
2025-04-08
【计算机教育】DeepSeek-V3在计算机网络教育中的实证研究:评估模型效能与跨语言适应性
2025-04-04
医疗领域大型语言模型DeepSeek R1医疗推理能力分析:评估模型推理过程及错误模式以提升临床决策支持系统性能
2025-04-04
【软件工程领域】面向软件工程的人工智能:任务分类、挑战与前进路径了面向软件工程
2025-04-03
### 【自然语言处理】基于强化学习的部分奖励优化Text-to-SQL任务:推理-SQL系统设计与性能提升
2025-04-03
ActionStudio:轻量级动作模型数据与训练框架
2025-04-02
Unicorn: 用于视觉语言模型训练的纯文本数据合成
2025-03-31
基于大型模型的多任务语义通信
2025-03-31
Dewey 长上下文嵌入模型:技术报告
2025-03-30
实时评估模型在RAG中的应用:谁最能检测到幻觉?
2025-03-30
我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡
2025-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人