【LLM】25.1.13 Arxiv LLM论文速递

25.1.13 Arxiv LLM 更新54篇

—第1篇----

=====

SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing

🔍 关键词: cs.CV, cs.CL
链接1

摘要: 视频编辑模型已经取得了显著的进展,但评估其性能仍然具有挑战性。传统指标,如CLIP文本和图像评分,往往不足:文本评分受限于不充分的训练数据和层级依赖,而图像评分无法评估时间一致性。我们提出了SST-EM(语义、空间和时间评估指标),一种新颖的评估框架,利用现代视觉语言模型(VLM)、目标检测和时间一致性检查。SST-EM包括四个组件:(1) 使用VLM从帧中提取语义,(2) 使用目标检测进行主要对象跟踪,(3) 通过LLM代理进行聚焦对象细化,(4) 使用视觉变换器(ViT)进行时间一致性评估。这些组件整合为一个统一的指标,其权重通过人工评估和回归分析得出。SST-EM名称反映了其在视频评估中的语义、空间和时间方面的重点。SST-EM提供了视频编辑中语义忠实度和时间平滑性的全面评估。源代码可在 GitHub Repository 获得。
总结: SST-EM提出了一种综合评估框架,能够全面衡量视频编辑在语义、空间和时间方面的表现。

###【arXiv编号】2501.07554v1
###【git】https://github.com/custommetrics-sst/SST_CustomEvaluationMetrics.git
###【期刊】无
###【领域】计算机视觉,视频编辑评估

[推荐指数:4]

推荐理由

该研究通过整合多种先进技术,创新性地解决了视频编辑评估中的多维度挑战,具有较高的实用性和应用潜力。

=====

—第2篇----

=====

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

🔍 关键词: cs.CL, cs.CV, cs.LG
链接1

摘要: 连锁思维(CoT)提示在增强大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的复杂推理方面已被证明非常有效。然而,它在复杂的空间推理任务中表现不佳。然而,人类认知不仅依赖于语言,还能够同时进行文字和图像的思考。受到这一机制的启发,我们提出了一种新的推理范式——多模态思维可视化(MVoT)。该方法通过生成推理轨迹的图像可视化,使MLLMs能够进行视觉思维。为确保高质量的可视化,我们在自回归MLLMs中引入了令牌差异损失。这一创新显著提高了视觉一致性和保真度。我们通过多个动态空间推理任务验证了该方法。实验结果表明,MVoT在各项任务中表现出竞争力。此外,在CoT失败的最具挑战性的场景中,MVoT展现出稳健且可靠的改进。最终,MVoT为复杂的推理任务开辟了新的可能性,使视觉思维能够有效地补充语言推理。
总结: MVoT通过多模态思维可视化显著提升了多模态大型语言模型在复杂空间推理任务中的性能和可靠性。
###【arXiv编号】2501.07542v1
###【git】
###【期刊】
###【领域】计算机科学

[推荐指数:4]

推荐理由

该研究提出了一种创新的多模态思维可视化方法,显著改善了多模态大型语言模型在复杂空间推理任务中的表现,具有较高的创新性和实用性。


—第3篇----

=====

WebWalker:基于LLM的网络遍历基准测试

🔍 关键词: LLM, 网络遍历, 检索增强生成, 多智能体框架
链接1

摘要: 检索增强生成(RAG)在开放域问答任务中表现出色。然而,传统搜索引擎可能只能检索到浅层内容,限制了大型语言模型(LLM)处理复杂、多层次信息的能力。为此,我们引入了WebWalkerQA,这是一个旨在评估LLM执行网络遍历能力的基准测试。它评估LLM系统性地遍历网站子页面以提取高质量数据的能力。我们提出了WebWalker,这是一个模仿人类网络导航的多智能体框架,通过探索-批判范式实现。大量实验结果表明,WebWalkerQA具有挑战性,并展示了RAG结合WebWalker在现实世界场景中通过横向和纵向整合的有效性。
总结: 本文提出了WebWalkerQA基准测试和WebWalker多智能体框架,有效评估和提升了大型语言模型在网络遍历与数据提取中的能力。

###【arXiv编号】2501.07572v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能,语言处理

[推荐指数:4]

推荐理由

该研究在评估和提升大型语言模型进行网络遍历的能力方面具有创新性,提出了新的基准测试和框架,具有较高的实用价值,适用于相关领域的研究和应用。


—第4篇----

=====

SecAlign: Defending Against Prompt Injection with Preference Optimization

🔍 关键词: 大型语言模型, 提示注入, 偏好优化, 安全防御
PDF链接

摘要: 大型语言模型(LLMs)在现代软件系统中日益普及,充当用户与互联网之间的接口,协助完成需要高级语言理解的任务。为了完成这些任务,LLM通常使用外部数据源,如用户文档、网络检索、API调用结果等。这为攻击者通过提示注入操控LLM提供了新的途径。对抗性提示可以被注入到外部数据源中,以覆盖系统的预期指令,转而执行恶意指令。为了减轻这种漏洞,我们提出了一种基于偏好优化技术的新防御方法——SecAlign。我们的防御方法首先构建了一个包含提示注入输入、安全输出(响应合法指令)和不安全输出(响应注入指令)的偏好数据集。然后,我们在该数据集上进行偏好优化,教导LLM更倾向于安全输出而非不安全输出。这提供了首个已知的方法,可以将各种提示注入的成功率降低到约0%,即使面对比训练中见过的更复杂的攻击。这表明我们的防御措施能够很好地泛化于未知和未来的攻击。此外,我们防御后的模型在实用性上仍与防御前相似。我们的代码可在GitHub获取。
总结: 本文提出的SecAlign方法通过偏好优化显著增强了大型语言模型对提示注入攻击的防御能力。

###【arXiv编号】2410.05451v2
###【git】https://github.com/facebookresearch/SecAlign
###【期刊】预印本
###【领域】计算机科学 - 密码学与安全, 计算机科学 - 机器学习

[推荐指数:5]

推荐理由

SecAlign在大型语言模型安全防护领域具有高度创新性和实用性,能够有效防御复杂的提示注入攻击,同时保持模型的实用性,具有重要的学术和应用价值。


—第5篇----

=====

Investigating Large Language Models in Inferring Personality Traits from User Conversations

🔍 关键词: 大型语言模型, 性格特质, GPT-4, 心理评估, 大五人格量表
链接1

摘要: 大型语言模型(LLMs)在包括心理评估在内的多个领域展示了显著的人类类能力。本研究评估了LLMs,特别是GPT-4o和GPT-4o mini,是否能够在零样本提示条件下从用户对话中推断大五人格特质并生成大五人格量表-10(BFI-10)项目分数。研究结果表明,加入中间步骤——在计算特质之前提示BFI-10项目分数——能够提高准确性,并且比直接推断特质更接近金标准。这种结构化的方法强调了在提高预测精度方面利用心理框架的重要性。此外,基于抑郁症状存在与否的群体比较揭示了模型性能的差异。参与者被分为两组:有至少一种抑郁症状和无症状组。GPT-4o mini在症状存在组中对神经质和尽责性等特质的抑郁相关变化表现出更高的敏感性,而GPT-4o在跨组的细微解释方面表现出优势。这些发现强调了LLMs有效分析现实世界心理数据的潜力,为人工智能与心理学交叉的跨学科研究提供了有价值的基础。
总结: 研究表明,通过结构化提示,大型语言模型在从用户对话中推断大五人格特质方面表现出较高的准确性和潜力。
###【arXiv编号】arXiv:2501.07532v1
###【git】无
###【期刊】无
###【领域】计算机科学 - 计算语言学

[推荐指数:4]

推荐理由

该研究创新性地结合心理学框架与大型语言模型,提升了人格特质推断的准确性,且具备较高的实用价值,适合人工智能与心理学交叉领域的进一步研究。


—第6篇----

=====

Evaluating Agent-based Program Repair at Google

🔍 关键词: 计算机科学, 软件工程, 人工智能
链接1

摘要: 基于代理的程序修复通过结合现代大型语言模型的规划、工具使用和代码生成能力,提供了自动解决复杂错误的端到端方案。近期的研究探讨了在受欢迎的开源SWE-Bench(一个来自高评分GitHub Python项目的错误集合)上使用基于代理的修复方法。此外,还提出了各种代理方法,如SWE-Agent,用于解决该基准中的错误。本文探讨了在企业环境中使用代理方法解决错误的可行性。为此,我们从Google的错误跟踪系统中整理了178个错误的评估集。该数据集包括78个由人类报告的错误和100个由机器报告的错误。为了在该基准上建立修复性能基线,我们实现了Passerine,这是一种类似于SWE-Agent的代理,能够在Google的开发环境中工作。我们展示了使用20个轨迹样本和Gemini 1.5 Pro,Passerine能够为评估集中73%的机器报告错误和25.6%的人类报告错误生成通过错误测试的补丁(即合理的)。经过手动检查,我们发现43%的机器报告错误和17.9%的人类报告错误至少有一个补丁在语义上等同于真实的补丁。这些结果在工业相关基准上建立了基线,正如我们所展示的,这些基准中的错误在语言多样性、规模和更改范围等方面与流行的SWE-Bench数据集中的错误分布不同。
总结: 该研究在工业环境中评估了基于代理的程序修复方法,展示了其在自动修复机器报告和人类报告错误方面的有效性。

###【arXiv编号】2501.07531v1
###【领域】计算机科学, 软件工程, 人工智能

[推荐指数:4]

推荐理由

本文在工业背景下评估了基于代理的程序修复方法,展示了其在实际应用中的潜力和有效性,对自动化软件维护具有重要的实际意义和研究价值。


—第7篇----

=====

RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment

🔍 关键词: cs.CV, cs.AI, cs.LG
PDF链接

摘要: 自动化胸部X光片解读需要同时实现准确的疾病分类和详细的放射学报告生成,这在临床工作流程中构成了重大挑战。目前的方法要么专注于分类准确性而牺牲可解释性,要么通过图像描述技术生成详细但可能不可靠的报告。本研究提出了RadAlign,这是一种新颖的框架,将视觉语言模型(VLM)的预测准确性与大型语言模型(LLM)的推理能力相结合。受放射科医生工作流程的启发,RadAlign首先采用一种专门的VLM,将视觉特征与关键医疗概念对齐,在多种疾病上实现了平均AUC为0.885的卓越疾病分类。这些被识别的医疗状况以对齐的视觉语言空间中的基于文本的概念表示,随后用于提示基于LLM的报告生成。通过检索增强生成机制,该机制基于类似的历史案例来支撑输出,RadAlign以0.678的GREEN评分提供了优于最先进方法0.634的报告质量。我们的框架在保持强大临床可解释性的同时,减少了幻觉现象,通过集成预测和生成AI推进了自动化医疗影像和报告分析。代码可在 https://github.com/difeigu/RadAlign 获取。
总结: RadAlign框架通过结合先进的视觉语言模型和大型语言模型,实现了高准确性和可解释性的自动化胸部X光报告生成。

【arXiv编号】2501.07525v1

【git】https://github.com/difeigu/RadAlign

【期刊】

【领域】医疗影像分析,计算机视觉,人工智能

[推荐指数:4]

推荐理由

RadAlign在自动化医疗影像报告生成方面展示了显著的创新性和实用性,通过结合VLM和LLM有效提升了分类准确性和报告质量,具有较高的研究和应用价值。


—第8篇----

=====

用于位置不变的并行键值缓存融合的检索增强生成(RAG)

🔍 关键词: cs.AI, cs.CL
PDF链接

摘要: 近年来,大型语言模型(LLM)的进步凸显了利用外部信息的检索增强生成(RAG)的必要性。然而,LLM对上下文中相关信息的位置敏感,当相关信息位于中间时,模型往往会生成错误的响应,这被称为“迷失在中间”现象。在本文中,我们介绍了一个框架,可以为仅解码器的模型生成一致的输出,无论输入上下文的顺序如何。对三个开放领域问答任务的实验结果表明,该模型具有位置不变性,不会对输入上下文顺序敏感,并且与现有的RAG流程相比,对无关段落具有更强的鲁棒性。
总结: 本文提出了一种新的RAG框架,提升了大型语言模型在不依赖上下文顺序的情况下的稳定性和鲁棒性。

###【arXiv:2501.07523v1】
###【git】
###【期刊】
###【领域】: 计算机科学 - 人工智能,计算机科学 - 计算语言学

[推荐指数:4]

推荐理由

该研究在提升大型语言模型的鲁棒性和位置不变性方面具有创新性和实用性,能够有效解决“迷失在中间”问题,适用于开放领域的问答系统。


—第9篇----

=====

Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation

🔍 关键词: 大规模语言模型, 多模态, 顺序推荐, 推荐系统, 模态融合
链接1

摘要: 近年来,大规模语言模型(LLMs)的进展在推荐系统(RSs)领域显示出显著的潜力。大多数现有研究集中于将用户行为日志转化为文本提示,并利用提示调优等技术使LLMs适用于推荐任务。同时,多模态推荐系统通过使用模态融合技术集成图像、文本和其他来源的数据的研究兴趣也在增长。这为依赖纯文本模态信息的现有LLM基础推荐范式带来了新的挑战。此外,尽管能够处理多模态输入的多模态大规模语言模型(MLLMs)已出现,如何赋予MLLMs多模态推荐能力仍然基本未被探索。为此,本文提出了基于MLLM的多模态顺序推荐模型(MLLM-MSR)。为了捕捉用户偏好的动态变化,设计了一个两阶段的用户偏好总结方法。具体而言,首先利用基于MLLM的项目总结器提取项目的图像特征并将图像转换为文本。然后,采用基于LLM的用户总结器的递归用户偏好总结生成范式,捕捉用户偏好的动态变化。最后,为了使MLLM适用于多模态推荐任务,提出使用监督微调(SFT)技术微调基于MLLM的推荐器。通过在多个数据集上的广泛评估,验证了MLLM-MSR的有效性,展示了其在捕捉和适应用户偏好动态变化方面的优越能力。
总结: 本文提出了一种基于多模态大规模语言模型的多模态顺序推荐方法,能够有效捕捉并适应用户偏好的动态变化。
###【arXiv编号】2408.09698v5
###【git】
###【期刊】
###【领域】计算机科学,人工智能,信息检索

[推荐指数:4]

推荐理由

本文创新性地将多模态大规模语言模型应用于顺序推荐任务,并通过监督微调技术显著提升了模型在多个数据集上的性能,具有较高的研究和应用价值。


—第10篇----

=====

Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards

🔍 关键词: 对抗攻击,排行榜操纵,大型语言模型,系统安全
链接1

摘要: 现在常见通过让人类手动投票来评估大型语言模型(LLMs)的输出,以对比通常评估知识或某特定任务技能的基准。Chatbot Arena 是最受欢迎的此类基准,通过让用户在两个随机选定的模型之间选择更好的回应来对模型进行排名(而不透露哪个模型负责生成回应)。这些平台被广泛信任为公平和准确的LLM能力衡量标准。在本文中,我们展示了如果没有实施机器人保护和其他防御措施,这些基于投票的基准可能易受到对抗性操纵的攻击。具体来说,我们展示攻击者如何以大约一千票的代价(在Chatbot Arena的模拟离线版本中验证)改变排行榜(以提升他们喜欢的模型或降级竞争对手)。我们的攻击由两步组成:首先,我们展示攻击者如何以超过95%的准确率确定生成给定回复使用的是哪个模型;然后,攻击者可以利用这些信息持续投票支持(或反对)目标模型。在与Chatbot Arena开发者合作的过程中,我们识别、提出并实施缓解措施,以提高Chatbot Arena防范对抗性操纵的鲁棒性,根据我们的分析,这些措施大幅提高了此类攻击的成本。其中一些防御措施在我们的合作之前已经存在,例如使用Cloudflare的机器人保护、恶意用户检测和速率限制。其他措施,包括reCAPTCHA和登录功能,正在集成中以增强Chatbot Arena的安全性。
总结: 该研究揭示了基于投票的排行榜在缺乏防御措施时易受对抗性攻击的威胁,并提出了相应的缓解策略以提升系统的安全性。
###【arXiv编号】2501.07493v1
###【git】
###【期刊】
###【领域】计算机科学 > 机器学习,计算机科学 > 密码学与安全

[推荐指数:4]

推荐理由

该论文深入分析了大型语言模型评估平台的安全性问题,通过实验证明潜在的对抗性攻击风险,并与开发者合作提出有效的缓解措施,具有较高的创新性和实用价值。


—第11篇----

=====

Controlling Equational Reasoning in Large Language Models with Prompt Interventions

🔍 关键词: 大型语言模型, 符号数据生成, 提示干预, 等式推理, 数学错误
链接1

摘要: 本文研究了如何通过符号数据生成框架控制大型语言模型(LLMs)中的幻觉率,探索特定数学错误发生率与输入干预类型之间的基本关系。具体而言,我们使用符号引擎系统地为推导生成任务生成数据,针对提示进行有针对性的干预,以扰动数学推导的特征,如符号的表面形式、等式树结构和数学上下文。然后,我们在一系列LLMs中评估提示干预的效果,包括微调的T5模型、GPT和基于LLaMa的模型。实验表明,T5-Large在通过该框架生成的各种评估集上能超过GPT-4的少量示例性能。然而,基于人类分析、基于模板的错误检测和文本生成指标的广泛评估显示出模型的弱点,这些弱点超出了参考指标单独描述的范围。我们利用这些结果将干预的特征分布足迹与LLM推导质量的人类评估联系起来,可能在特定类型错误方面对语言模型的细粒度数学能力实现显著控制。

总结: 该研究通过符号化干预控制大语言模型的数学推导错误率,展示了对特定类型错误的细粒度调整能力。

###【arXiv编号】2307.09998v5

###【领域】计算机科学,自然语言处理与数学推理

[推荐指数:4]

推荐理由

该研究通过符号数据生成和有针对性的提示干预,系统地控制大型语言模型在数学推导中的错误率,具有较高的创新性和应用潜力。


—第12篇----

=====

TiEBe: A Benchmark for Assessing the Current Knowledge of Large Language Models

🔍 关键词: 大型语言模型, 基准测试, 持续学习, 知识更新
链接1

摘要: 在迅速发展的知识环境和大型语言模型日益普及的背景下,如何持续更新这些模型以适应当前事件的变化成为迫切需求。虽然现有的基准评估了模型的一般事实回忆能力,但往往忽视了两个关键方面:模型通过持续学习整合不断发展的知识的能力,以及在性能上存在显著的区域差异。为了解决这些问题,我们引入了时事事件基准(TiEBe),这是一个包含超过11,000个关于全球和区域重要事件的问题-答案对的数据集。TiEBe利用来自维基百科的结构化回顾数据,实现了对大型语言模型对于不断变化的全球事务知识和对不同区域事件理解的持续评估。我们的基准测试表明,大型语言模型在事实回忆方面存在显著的地理差异,这强调了需要更均衡的全球知识表示。此外,TiEBe作为评估持续学习策略的工具,提供了关于模型获取新信息而不忘记过去知识的能力的见解。

总结: TiEBe提供了一个评估大型语言模型持续学习和全球知识表示能力的基准,揭示了模型在不同地理区域的性能差异。

###【arXiv编号】2501.07482v1

###【期刊】无

###【领域】人工智能, 自然语言处理, 持续学习

[推荐指数:4]

推荐理由

该论文提出了一个针对大型语言模型持续知识更新和区域性知识表现的新基准TiEBe,具有较高的创新性和实用性,能够促进模型在全球范围内更均衡的知识表示。

=====

—第13篇----

=====

Steering Large Language Models using Conceptors: Improving Addition-Based Activation Engineering

🔍 关键词: 大型语言模型, 概念器, 激活工程, 控制输出
PDF链接

摘要: 大型语言模型已经变革了人工智能领域,但可靠地控制其输出仍然是一大挑战。本文探讨了激活工程,通过在推理时操控预训练大型语言模型的激活来控制其输出。不同于传统的使用单一控制向量的方法,我们引入了概念器——一种能够将激活向量集表示为椭圆区域的数学构造。概念器充当软投影矩阵,能够更精确地控制复杂的激活模式。我们的实验表明,概念器在多个控制任务上优于传统方法。我们进一步在概念器上使用布尔运算以实现组合控制目标,实验证明在一系列任务上表现优于将控制向量相加的方法。这些结果强调了概念器作为更有效控制大型语言模型的有前景工具。我们的代码可在github.com/jorispos/conceptorsteering获取。
总结: 概念器方法提供了比传统控制向量更精确的方式来操控大型语言模型的激活。

###【arXiv编号】2410.16314v3
###【git】github.com/jorispos/conceptorsteering
###【期刊】
###【领域】计算机科学,机器学习

[推荐指数:4]

推荐理由

本文提出了创新性的概念器方法,有效提升了大型语言模型的控制精度,在多个任务上表现出色,具有较高的实用性和研究价值。


—第14篇----

=====

理解和基准测试人工智能:OpenAI 的 o3 不是通用人工智能

🔍 关键词: 计算机科学, 人工智能, 大型语言模型, 通用人工智能
PDF链接

摘要: OpenAI 的 o3 在 ARC-AGI 上取得了 87.5% 的高分,这是一个用于衡量智能的基准。这引发了一个问题,即基于大型语言模型(LLMs),特别是 o3,的系统是否展示了智能及向通用人工智能(AGI)发展的进步。基于 ARC-AGI 创始人 François Chollet 对技能和智能之间区别的划分,本文引入了一种新的智能理解:一个代理的智能程度取决于它能够在更少的知识下,更高效地在更多样化的世界中实现更多样化的目标。对 ARC-AGI 基准的分析表明,其任务代表了一种非常特定类型的问题,可以通过大量试验预定义操作的组合来解决。o3 也是采用这种方法,通过大量计算能力的利用取得了高分。然而,对于物理世界和人类领域的大多数问题,解决方案无法提前测试,且没有预定义的操作。因此,o3 所采取的预定义操作的大量试验无法作为 AGI 的基础——相反,需要新的方法能够在没有现有技能的情况下可靠地解决各种各样的问题。为支持这一发展,本文概述了一个新的智能基准,涵盖了更多样化的未知任务,从而能够全面评估智能和向AGI的进展。
总结: 本文认为,尽管 OpenAI 的 o3 在 ARC-AGI 基准上取得高分,但其方法并不代表通用人工智能的进展,并提出了新的智能评估标准。
###【arXiv:2501.07458v1】
###【git】
###【期刊】
###【领域】人工智能, 计算机科学

[推荐指数:4]

推荐理由

该论文对评估通用人工智能的方法提出了新的观点,对研究进展具有重要的指导意义。


—第15篇----

=====

Enhancing LLM’s Ability to Generate More Repository-Aware Unit Tests Through Precise Contextual Information Injection

🔍 关键词: 大型语言模型, 单元测试生成, 上下文注入, 软件工程
PDF链接

摘要: 尽管已经提出了许多基于学习的方法用于单元测试生成,并取得了显著的性能,但它们在依赖特定任务的数据集方面仍然存在局限性。最近,由提示工程指导的大型语言模型(LLMs)因其处理广泛任务的能力,包括单元测试生成,受到关注。尽管取得了成功,LLMs在为焦点方法或函数生成单元测试时可能会出现幻觉现象,因为它们缺乏对项目全局上下文的了解。这些幻觉可能表现为调用不存在的方法,以及参数或返回值不正确,例如参数类型或数量不匹配。尽管许多研究探讨了上下文的作用,但它们通常为不同的模型和焦点方法提取固定模式的上下文,这可能不适用于所有生成过程(例如,过多的无关上下文可能导致冗余,阻止模型关注关键信息)。为克服这一限制,我们提出了RATester,通过全局上下文信息的注入,增强LLM生成更具存储库感知的单元测试的能力。为了使LLMs具备类似人类测试人员的全局知识,我们集成了提供基本功能(例如定义查找)以辅助LLM的语言服务器gopls。当RATester遇到不熟悉的标识符(例如不熟悉的结构名称)时,它首先利用gopls获取相关定义和文档注释,然后使用这些全局知识指导LLM。通过利用gopls,RATester丰富了LLM对项目全局上下文的知识,从而减少了在单元测试生成过程中的幻觉。
总结: 本文提出了一种通过注入全局上下文信息,利用语言服务器增强大型语言模型生成更具存储库感知的单元测试的方法,以减少幻觉现象。

###【arXiv编号】2501.07425v1
###【git】暂无
###【期刊】暂无
###【领域】软件工程

[推荐指数:4]

推荐理由

该研究通过结合语言服务器gopls,创新性地提升了大型语言模型在单元测试生成中的上下文感知能力,具有较高的实用价值。


—第16篇----

=====

Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs

🔍 关键词: 计算机科学,人工智能,自然语言处理,创意写作,语言模型
链接1

摘要: 本文评估了一个经过微调的小型语言模型(SLM),BART-large,在创造性虚构写作能力方面,并将其性能与人类作者和两个大型语言模型(LLMs):GPT-3.5和GPT-4o进行比较。我们的评估包括两个实验:(i) 一项人类研究,68名参与者对人类和SLM创作的短篇故事在语法性、相关性、创造力和吸引力方面进行了评分;(ii) 一个定性语言分析,检查每个模型生成故事的文本特征。在第一个实验中,BART-large的总体得分超过了平均人类作者(2.11 vs. 1.85),相对提升了14%,尽管在人类创造力上的微弱优势并未达到统计显著性。在第二个实验中,定性分析显示,虽然GPT-4o展示了近乎完美的连贯性并使用了更少的陈词滥调短语,但它倾向于产生更可预测的语言,只有3%的概要包含令人惊讶的关联(相比之下,BART为15%)。这些发现突显了模型规模和微调如何影响创造性写作任务中的创造力、流畅性和连贯性的平衡,并展示了在某些情况下,小型模型可以媲美人类和更大型的模型。
总结: 研究表明,经过精调的小型语言模型在短篇创意写作方面可与人类及大型模型竞争。
###【arXiv:2409.11547v2】
###【git】
###【期刊】
###【领域】计算机科学,人工智能,自然语言处理

[推荐指数:4]

推荐理由

文章展示了小型语言模型在创意写作中的潜力,提供了与人类及大型模型的比较分析,具有较高的创新性和实用性。


—第17篇----

=====

Galapagos: Automated N-Version Programming with LLMs

🔍 关键词: 软件工程, 容错系统, 大型语言模型, N版本编程
链接1

摘要: N版本编程是一种众所周知的开发容错系统的方法。它通过向程序中添加多样化冗余来实现运行时的故障检测和纠正,最小化冗余程序变体之间的故障模式重叠。在本研究中,我们提出使用大型语言模型自动生成程序变体。我们设计、开发并评估了Galapagos:一个使用LLMs生成程序变体、验证其正确性和等价性,并使用它们组装N版本二进制文件的工具。我们通过创建真实世界C代码的N版本组件来评估Galapagos。我们的初步结果显示,Galapagos能够生成在功能上被证明是等价的程序变体,即使这些变体使用不同的编程语言编写。我们的系统性多样性测量表明,Galapagos生成的功能等价变体在编译后在静态上存在差异,并在运行时表现出不同的内部行为。我们展示了Galapagos生成的变体可以防止影响Clang编译器的真实错误编译漏洞。总的来说,我们的论文表明,通过对实际形式验证和生成性语言模型的先进使用,可以大幅自动化N版本软件的生产。

总结: 本文展示了如何利用大型语言模型自动生成功能等价且多样化的程序变体,以实现容错系统的N版本编程。

###【arXiv:2408.09536v2】

###【领域】
计算机科学 – 软件工程,容错系统,人工智能

[推荐指数:4]

推荐理由

本文将大型语言模型应用于N版本编程,具有高度的创新性和实用性,能够显著提高容错系统的开发效率和可靠性,值得关注。

=====

—第18篇----

=====

Initial Findings on Sensor based Open Vocabulary Activity Recognition via Text Embedding Inversion

🔍 关键词: 人类活动识别, 开放词汇, 传感器, 嵌入反演, 自然语言处理
链接1

摘要: 传统的人类活动识别(HAR)依赖于训练用于预测离散活动类别的分类器,这在本质上限制了识别仅限于训练集中明确存在的活动。这类分类器在遇到未见过的活动时不可避免地会失败,赋予其零可能性。我们提出了开放词汇HAR(OV-HAR)框架,通过首先将每个活动转换为自然语言并将其分解为一系列基本动作,克服了这一限制。这种描述性文本然后被编码为固定大小的嵌入。模型被训练来回归这个嵌入,随后使用预训练的嵌入反演模型将其解码回自然语言。与依赖于自回归大型语言模型(LLM)的其他工作不同,OV-HAR实现了开放词汇识别,而无需这些模型的计算开销。生成的文本可以通过LLM提示工程转换为单一活动类别。我们在不同模态(包括视觉(姿态)、IMU和压力传感器)上评估了我们的方法,展示了在未见活动和模态上的稳健泛化,提供了一种与当代分类器根本不同的范式。

总结: OV-HAR框架通过文本嵌入反演,实现了无需大型语言模型的开放词汇人类活动识别,显著提升了对未见活动和多模态数据的泛化能力。

###【arXiv编号】2501.07408v1

###【git】无

###【期刊】arXiv

###【领域】人机活动识别、计算机视觉、传感器数据分析

[推荐指数:5]

推荐理由

该论文提出了一种创新的开放词汇人类活动识别框架,通过文本嵌入反演方法有效解决了传统分类器在处理未见活动时的局限性,且无需依赖计算资源密集的大型语言模型,展示了在多模态数据上的强大泛化能力,具有较高的创新性和实用性,值得高度推荐。

=====

—第19篇----

=====

GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization

🔍 关键词: 生成模型, 图像操作检测, 计算机视觉, 数据集, 深度学习
PDF链接

摘要: 生成模型卓越的能力已成为图像编辑和生成逼真图像的新趋势,这对多媒体数据的可信度构成了严重威胁,并推动了图像操作检测与定位(IMDL)的研究。然而,缺乏大规模的数据基础使得IMDL任务难以实现。本文建立了一个本地图像操作数据生成管道,整合了SAM、LLM和生成模型的强大能力。在此基础上,我们提出了GIM数据集,具有以下优势:1)大规模,GIM包括超过一百万对AI操作图像和真实图像。2)丰富的图像内容,GIM涵盖了广泛的图像类。3)多样的生成操作,图像使用最先进的生成器和各种操作任务进行操作。这些优势使得IMDL方法能够更加全面地评估,并扩展其适用性到多样化的图像。我们引入了GIM基准,包括两种设置来评估现有的IMDL方法。此外,我们提出了一种新的IMDL框架,称为GIMFormer,该框架包括ShadowTracer、频域-空间块(FSB)和多窗口异常建模(MWAM)模块。在GIM上的广泛实验表明,GIMFormer在两个不同的基准上均超过了以前的最先进方法。
总结: 本文提出了一个大规模的GIM数据集及其基准,并开发了新型的IMDL框架GIMFormer,显著提升了图像操作检测与定位的效果。
###【arXiv:2406.16531v2】
###【git】
###【期刊】
###【领域】计算机视觉

[推荐指数:4]

推荐理由

GIM数据集规模庞大且多样,GIMFormer框架具有创新性,能够显著提升图像操作检测与定位的准确性,具有较高的研究和应用价值。


—第20篇----

=====

Emergent effects of scaling on the functional hierarchies within large language models

🔍 关键词: 大规模语言模型, 功能层级, 规模效应, 激活分析, 语言表示
链接1

摘要: 大型语言模型(LLM)架构常被描述为功能上具有层级结构:早期层处理语法,中间层开始解析语义,后期层整合信息。本研究重新审视了这些观点。研究通过向LLM提交简单文本(例如,“A church and organ”)并提取相应的激活。然后,对于每一层,使用支持向量机和岭回归来预测文本的标签,从而检查给定层是否编码了某些信息。使用较小的模型(Llama-3.2-3b;28层)的分析部分支持了常见的层级观点:项目级语义在早期层(2-7层)中表现最强,然后是两项关系(8-12层),接着是四项类比(10-15层)。之后,项目和简单关系的表示在更深的层中逐渐减少,深层关注于更全局的信息。然而,几项发现与稳定的层级视图相悖:首先,尽管深层可以表示文档级的抽象,但深层也压缩了上下文窗口早期部分的信息而没有有意义的抽象。其次,检查更大的模型(Llama-3.3-70b-Instruct)时,抽象级别出现了明显的波动:随着深度增加,两项关系和四项类比的表示最初增加,随后显著减少,之后又暂时增加。这种奇特的模式在多个实验中一致出现。第三,规模扩展的另一个显现效应是相邻层之间注意机制的协调。在使用较大模型的多个实验中,相邻层在各自专门表示的信息之间波动。总之,尽管层之间常表现出抽象层级,但大型模型也以奇特的方式偏离了这一结构。
总结: 本文揭示了大规模语言模型中功能层级随规模变化而出现的复杂效应,既支持了层级结构的存在,又发现了其偏离层级的奇特现象。

###【arXiv:2501.07359v1】
###【git】
###【期刊】
###【领域】计算机科学, 人工智能

[推荐指数:4]

推荐理由

本文深入探讨了大规模语言模型中功能层级的变化效应,发现了层级结构的支持证据及其偏离,具有较高的创新性和对理解语言模型内部机制的实用价值。


—第21篇----

=====

文章名称

Occamy: A 432-Core Dual-Chiplet Dual-HBM2E 768-DP-GFLOP/s RISC-V System for 8-to-64-bit Dense and Sparse Computing in 12nm FinFET

🔍 关键词: RISC-V, 高性能计算 (HPC), 机器学习 (ML), FinFET, HBM2E
PDF链接

**摘要:**机器学习(ML)和高性能计算(HPC)应用日益结合稠密与稀疏的内存访问计算,以最大化存储效率。然而,现有的CPU和GPU难以灵活地处理这些异构工作负载,同时保持高效的计算效率。我们提出了Occamy,这是一种拥有432核、768 DP-GFLOP/s、双HBM2E内存、双芯片组的RISC-V系统,配备了延迟容忍的分层互连和核心内流处理单元(SUs),旨在加速从FP8到FP64的稠密与稀疏ML及HPC工作负载。我们使用12纳米FinFET工艺实现了Occamy的计算芯片组,并在65纳米节点上实现了其被动中介层Hedwig。在稠密线性代数(LA)任务中,Occamy实现了89%的FPU利用率,具有竞争力。在模板代码(stencil codes)中,Occamy达到了83%的FPU利用率和11.1 DP-GFLOP/s/mm²的技术节点归一化计算密度,分别比最先进(SoA)的处理器高出1.7倍和1.2倍。在稀疏-稠密线性代数(LA)任务中,Occamy实现了42%的FPU利用率和5.95 DP-GFLOP/s/mm²的归一化计算密度,分别超过SoA 5.2倍和11倍。在稀疏-稀疏LA任务中,Occamy达到了最高187 GCOMP/s的吞吐量、17.4 GCOMP/s/W的能效和3.63 GCOMP/s/mm²的计算密度。最后,在稠密(LLM)和图稀疏(GCN)ML推理工作负载中,Occamy分别达到了75%和54%的FPU利用率。Occamy的RTL在宽松的开源许可证下免费提供。

**总结:**Occamy是一种高效的双芯片RISC-V系统,显著提升了机器学习和高性能计算任务的计算性能与能效。

【arXiv编号】: arXiv:2501.07330v1

【git】: 无

【期刊】: 无

【领域】: 计算机科学 - 架构、机器学习、高性能计算

【推荐指数:5】

推荐理由

Occamy在RISC-V架构下,通过双芯片组设计和先进的内存互连技术,显著提升了稠密与稀疏计算任务的性能和能效,展示了高度的创新性和实际应用价值,适用于前沿的机器学习和高性能计算领域。

=====

—第22篇----

=====

FinerWeb-10BT: Refining Web Data with LLM-Based Line-Level Filtering

🔍 关键词: LLM, 数据质量, 行级过滤, GPT-4, DeBERTa-v3
链接1

摘要: 数据质量对于训练大型语言模型(LLMs)至关重要。传统的启发式过滤器常常遗漏低质量文本或错误地移除有价值的内容。本文介绍了一种基于LLM的行级过滤方法,以提高训练数据的质量。我们使用GPT-4o mini对FineWeb中20,000个文档样本进行行级标注,使模型能为低质量行创建描述性标签。这些标签被分为九个主要类别,我们训练了一个DeBERTa-v3分类器,以将过滤扩展到FineWeb的100亿代币子集。为了测试过滤的影响,我们在原始数据集和过滤后的数据集上训练了GPT-2模型。结果显示,基于过滤数据训练的模型在HellaSwag基准测试上的准确率更高,并且更快达到性能目标,即使数据量减少了高达25%。这表明,基于LLM的行级过滤可以显著提高数据质量和训练效率。我们发布了质量标注的数据集FinerWeb-10BT和支持该领域进一步研究的代码库。

总结: 本文展示了一种基于LLM的行级过滤方法,显著提升了训练大型语言模型的数据质量和效率。

###【arXiv编号】2501.07314

###【git】

###【期刊】

###【领域】计算机科学 - 计算语言学

[推荐指数:4]

推荐理由

该研究提出了一种创新且实用的LLM行级过滤方法,显著提升了数据质量和训练效率,对大型语言模型的训练具有重要价值。


—第23篇----

=====

DrLLM: 提升分布式拒绝服务攻击抵抗能力的提示增强方法与大规模语言模型

🔍 关键词: 分布式拒绝服务 (DDoS), 大规模语言模型 (LLM), 零样本学习, 网络安全
PDF链接

摘要: 分布式拒绝服务(DDoS)攻击数量的增加对互联网构成了重大威胁,强调了DDoS缓解的重要性。大多数现有方法需要复杂的训练方法来学习数据特征,这增加了应用的复杂性和通用性。本文提出了DrLLM,旨在通过大规模语言模型(LLM)在零样本场景中挖掘异常流量信息。为了弥合DrLLM与现有方法之间的差距,我们将在推理范式中嵌入流量数据的全局和局部信息,并设计了三个模块,即知识嵌入、令牌嵌入和渐进角色推理,用于数据表示和推理。此外,我们在网络安全领域探索了提示工程的泛化,以提高DrLLM的分类能力。我们的消融实验证明了DrLLM在零样本场景中的适用性,并进一步展示了LLM在网络领域的潜力。DrLLM的实现代码已在 GitHub 上开源。

总结: DrLLM利用大规模语言模型在零样本情况下有效挖掘异常流量,实现对DDoS攻击的抗御。

###【arXiv编号】: 2409.10561v3

###【git】: https://github.com/liuup/DrLLM

###【期刊】: arXiv

###【领域】: 网络安全

[推荐指数:4]

推荐理由

DrLLM创新地将大规模语言模型应用于DDoS攻击防护,简化了复杂训练流程,展示了在零样本场景下的高效性和潜力,具有较高的实用价值和研究前景。

=====

—第24篇----

=====

The Lessons of Developing Process Reward Models in Mathematical Reasoning

🔍 关键词: cs.CL, cs.AI, cs.LG
链接1

摘要: 过程奖励模型(Process Reward Models,PRMs)作为一种有前景的方法,在大型语言模型(LLMs)的数学推理过程中用于过程监督,旨在识别并减轻推理过程中的中间错误。然而,开发有效的PRMs面临重大挑战,特别是在数据标注和评估方法上。本文通过大量实验表明,常用的基于蒙特卡罗(MC)估计的数据合成方法通常比“LLM作为裁判”(LLM-as-a-judge)和人工标注方法表现出更差的性能和泛化能力。MC估计依赖于完成模型评估当前步骤的正确性,导致步骤验证不准确。此外,我们发现传统的Best-of-N(BoN)评估策略在PRMs中存在潜在偏差:(1)不可靠的策略模型生成具有正确答案但过程有缺陷的响应,导致BoN的评估标准与PRM的过程验证目标不一致;(2)PRMs对这类响应的容忍性导致BoN评分膨胀;(3)现有PRMs在最终答案步骤上的最低分数集中,揭示了BoN优化的PRMs从过程评估转向结果评估。为应对这些挑战,我们开发了一种共识过滤机制,有效结合了MC估计与LLM-as-a-judge,并倡导一种结合响应级和步骤级指标的更全面评估框架。基于这些机制,我们显著提升了BoN评估和逐步错误识别任务中的模型性能和数据效率。最后,我们发布了一个新的最先进的PRM,优于现有的开源替代方案,并为未来在构建过程监督模型的研究提供了实用指南。
总结: 本文提出并验证了优化过程奖励模型的方法,显著提升了大型语言模型在数学推理中的性能和数据效率。

###【arXiv编号】2501.07301v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能,机器学习

[推荐指数:4]

推荐理由

该研究在过程监督模型的开发中提出了创新的评估机制,显著提升了数学推理的准确性和数据效率,对大型语言模型的推理能力提升具有重要实用价值。

=====

—第25篇----

=====

LLM-Net: 通过基于区块链的专家网络实现LLMs即服务的民主化

🔍 关键词: LLMs, 区块链, 专家网络, 去中心化, 人工智能
链接1

摘要: 大型语言模型(LLMs)开发的集中化已经造成了AI进步的显著障碍,限制了这些强大技术的民主化。这种集中化,加上高质量训练数据的稀缺以及在快速扩展的知识领域中维护全面专业知识的复杂性,给LLMs的持续增长带来了关键挑战。尽管诸如检索增强生成(RAG)等解决方案提供了潜在的补救措施,但在多样化领域中维护最新的专家知识仍然是一个重大挑战,特别是考虑到专业信息的指数增长。本文介绍了LLM-Net,一种基于区块链的框架,通过去中心化的专业LLM提供者网络民主化LLMs即服务。通过利用集体计算资源和分布式领域专长,LLM-Net融合了针对各种特定领域进行微调的专家模型,确保了知识的持续增长,同时通过协作提示机制维护服务质量。该框架的稳健设计包括用于透明交易和性能验证的区块链技术,建立了服务交付的不变记录。我们基于最先进的LLMs如Claude 3.5 Sonnet、Llama 3.1、Grok-2和GPT-4o构建的模拟验证了基于声誉机制在通过选择高绩效响应者(LLM提供者)来维护服务质量方面的有效性。因此,它展示了LLM-Net通过整合去中心化的专业知识和基于区块链的问责制来维持AI进步的潜力。

总结: LLM-Net利用区块链和去中心化专家网络,推动大型语言模型服务的民主化和持续发展。

###【arXiv编号】2501.07288v1

###【git】

###【期刊】

###【领域】人工智能, 区块链, 去中心化系统

[推荐指数:4]

推荐理由

LLM-Net提出了通过区块链技术和去中心化专家网络来民主化大型语言模型服务的创新框架,解决了集中化带来的局限性,具有较高的创新性和实用性,适合推动AI技术的进一步发展。

=====

—第26篇----

=====

Lifelong Learning of Large Language Model based Agents: A Roadmap

🔍 关键词: cs.AI
PDF链接

摘要: 终身学习,又称为持续学习或增量学习,是推进通用人工智能(AGI)的关键组件,能够使系统在动态环境中持续适应。虽然大型语言模型(LLM)在自然语言处理方面表现出了令人印象深刻的能力,现有的LLM代理通常设计用于静态系统,缺乏在新挑战面前随时间适应的能力。本综述首次系统性地总结了将终身学习纳入基于LLM的代理的潜在技术。我们将这些代理的核心组件分类为三个模块:用于多模态输入集成的感知模块、用于存储和检索不断演化知识的记忆模块,以及与动态环境进行有基础互动的行动模块。我们强调这些支柱如何共同实现持续适应,缓解灾难性遗忘,并改善长期性能。本综述为致力于开发LLM代理中终身学习能力的研究人员和从业者提供了一个路线图,提供了对新兴趋势、评估指标和应用场景的见解。相关的文献和资源可在 https://github.com/qianlima-lab/awesome-lifelong-llm-agent 获得。
总结: 本文系统性地综述了将终身学习技术集成到大型语言模型代理中的方法,提供了一个为持续适应动态环境设计LLM代理的研究路线图。
###【arXiv编号】
2501.07278v1
###【git】
https://github.com/qianlima-lab/awesome-lifelong-llm-agent
###【期刊】
暂无
###【领域】
人工智能、终身学习、大型语言模型代理

[推荐指数:4]

推荐理由

本文在终身学习与大型语言模型代理结合领域进行了全面的综述,提出了清晰的研究路线图,并提供了丰富的资源,具有较高的创新性和实用价值。


—第27篇----

=====

Transforming Role Classification in Scientific Teams Using LLMs and Advanced Predictive Analytics

🔍 关键词: 计算机科学, 深度学习, 社会信息网络
链接1

摘要: 科学团队的动态对于研究成果的性质和影响至关重要。然而,基于自我报告和聚类的现有作者角色分类方法缺乏对贡献的全面上下文分析。因此,我们提出了一种利用先进的大型语言模型(LLM)来分类科学团队中作者角色的变革性方法,与传统聚类方法相比,它提供了更细致的分析。具体而言,我们旨在通过使用开源和专有的LLM,如GPT-4、Llama3 70B、Llama2 70B和Mistral 7x8B,补充和增强这些传统方法,以实现角色分类。通过少量示例提示,我们对作者角色进行了分类,并证明GPT-4在多个类别上优于其他模型,超过了传统方法如XGBoost和BERT。我们的方法还包括使用10个特征构建一个预测深度学习模型。通过在来自OpenAlex数据库的一个数据集上训练该模型,该数据库提供了关于学术出版物的详细元数据——如作者-出版历史、作者隶属、研究主题和引用次数——我们实现了0.76的F1分数,展示了作者角色分类的稳健性。
总结: 该研究利用先进的大型语言模型显著提升了科学团队中作者角色分类的准确性。

###【arXiv编号】2501.07267v1
###【git】
###【期刊】
###【领域】计算机科学,深度学习,社会信息网络

[推荐指数:4]

推荐理由

该研究在利用大型语言模型进行作者角色分类方面具有创新性,且方法表现出较高的实用性,通过实验证明了其优于传统方法。

=====

—第28篇----

=====

文章名称: Are LLMs Good Cryptic Crossword Solvers?

🔍 关键词: cs.AI, cs.CL, cs.LG
PDF链接

摘要: 隐匿式填字游戏不仅依赖于常识,还依赖于解答者在不同层面上操纵语言以及处理各种文字游戏的能力。先前的研究表明,即使是现代的自然语言处理模型也难以解决此类谜题。然而,大型语言模型(LLMs)的能力尚未在这项任务上进行测试。本文建立了三个流行LLMs——LLaMA2、Mistral和ChatGPT——的基准结果,显示它们在此任务上的表现仍远不及人类。
总结: 大型语言模型在解决隐匿式填字游戏方面的表现仍远不及人类。

【arXiv编号】2403.12094v2

【领域】计算机科学,人工智能,自然语言处理,机器学习

[推荐指数:3]

推荐理由: 该论文为LLMs在解决隐匿式填字游戏方面设立了基准,揭示了其在此任务上与人类的差距,具有一定的研究价值。

=====

—第29篇----

=====

Lessons From Red Teaming 100 Generative AI Products

🔍 关键词: AI红队测试, 生成式AI, 安全性, 风险评估
链接1

摘要: 近年来,AI红队作为一种探查生成式AI系统安全性和可靠性的实践已浮现。由于该领域尚处于萌芽阶段,关于如何开展红队操作仍有许多未解之问。基于我们在微软对100多个生成式AI产品进行红队测试的经验,我们提出了内部威胁模型本体论以及我们所学到的八大主要经验:

  1. 理解系统的功能及其应用场景
  2. 攻破AI系统无需计算梯度
  3. AI红队测试不是安全基准测试
  4. 自动化有助于覆盖更多风险领域
  5. AI红队测试中的人为因素至关重要
  6. 负责任的AI危害普遍存在但难以衡量
  7. 大型语言模型放大了现有的安全风险并引入了新风险
  8. 保障AI系统安全的工作永无止境

通过分享这些见解及操作中的案例研究,我们提供了旨在将红队测试努力与现实世界风险对齐的实用建议。我们还强调了AI红队测试中常被误解的方面,并讨论了该领域需要考虑的开放性问题。

总结: 基于微软对100多款生成式AI产品的红队测试经验,本文提出了内部威胁模型和八大主要经验,以指导AI系统安全评估工作。

###【arXiv编号】2501.07238

###【领域】计算机科学 → 人工智能

[推荐指数:4]

推荐理由

这篇文章基于丰富的实际经验,系统总结了生成式AI产品的安全评估经验,为AI安全研究提供了有价值的指导。


—第30篇----

=====

Breaking Memory Limits: Gradient Wavelet Transform Enhances LLMs Training

🔍 关键词: 大型语言模型, 梯度小波变换, 内存高效训练, 优化器, 小波变换
链接1

摘要: 大型语言模型(LLMs)在各种自然语言处理任务中表现出色。然而,其庞大的参数数量在训练过程中引入了显著的内存挑战,特别是在使用像Adam这样内存密集型优化器时。现有的内存高效算法通常依赖于奇异值分解投影或权重冻结等技术。虽然这些方法有助于缓解内存限制,但与全秩更新相比,通常会产生次优结果。本文研究了低秩训练之外的内存高效方法,提出了一种新颖的解决方案,称为梯度小波变换(GWT),该方法对梯度应用小波变换,从而显著减少维护优化器状态所需的内存。我们证明了GWT可以与内存密集型优化器无缝集成,实现高效训练而不牺牲性能。通过在预训练和微调任务上的广泛实验,我们展示了GWT在内存使用和训练性能方面相比先进的内存高效优化器和全秩方法实现了最先进的性能。
总结: 梯度小波变换(GWT)在不牺牲性能的情况下显著减少了大型语言模型训练中的内存使用,优于现有内存高效优化器。

###【arXiv:2501.07237v1】
###【git】
###【期刊】
###【领域】计算机科学,人工智能

[推荐指数:5]

推荐理由

该研究提出了一种创新性和实用性兼备的内存高效训练方法,显著优化了大型语言模型的训练过程,具有广阔的应用前景和高影响力。


—第31篇----

=====

Touched by ChatGPT: Using an LLM to Drive Affective Tactile Interaction

🔍 关键词: 人机交互,触觉信号,大型语言模型,情感传达,机器人
链接1

摘要: 触觉是情感丰富交流的基本方面,在人际互动中发挥着重要作用,并在人与机器人互动中具有显著潜力。先前的研究表明,人类触觉的稀疏表示可以有效传达社会触觉信号。然而,机器人触觉互动的进展仍有限,因为许多类人机器人仅具有简单的功能,如仅能打开和关闭手,限制了细腻的触觉表达。在本研究中,我们探索了机器人如何使用触觉振动的稀疏表示来向人传达情感。为此,我们开发了一个集成了5x5振动马达网格的可穿戴袖套,使机器人能够传达多样的触觉情感和手势。通过在大型语言模型(LLM)中使用链式提示,我们生成了对应于10种情感(如快乐、悲伤、恐惧)和6种触摸手势(如拍打、揉捏、轻敲)的不同10秒振动模式。参与者(N = 32)随后根据感知的效价和唤醒对每种振动刺激进行了评价。结果表明,人们能够准确识别意图传达的情感,这与之前的发现一致。这些结果凸显了LLM生成情感触觉数据并通过触觉信号有效传达情感的能力。通过将复杂的情感和触觉表达转化为振动模式,本研究展示了LLM如何增强人类与机器人之间的物理互动。

总结: 该研究展示了如何利用大型语言模型生成触觉振动模式,以增强人机之间的情感互动。

###【arXiv编号】2501.07224v1

###【领域】人机交互,触觉通信,机器人技术

[推荐指数:4]

推荐理由

该研究创新性地结合大型语言模型与触觉交互,展示了提升人机情感交流的潜力,具有较高的实用性和应用前景,但在具体实现和机器人硬件能力方面仍有发展空间。


—第32篇----

=====

文章名称: FaceOracle: Chat with a Face Image Oracle

🔍 关键词: 面部图像, 面部识别, 质量评估, AI助手, 大型语言模型
链接1

摘要: 面部图像是身份证和旅行证件的必要部分。发行此类证件时获取高质量的面部图像对于人类审查员和自动面部识别系统都至关重要。在多个国际标准中,对面部图像质量的要求复杂且定义详细。识别和理解提交的面部图像的不合规或缺陷对于发行当局和申请人都至关重要。在这项工作中,我们介绍了FaceOracle,这是一种由大型语言模型(LLM)支持的AI助手,使用符合标准的算法以自然的对话方式帮助用户分析面部图像。利用LLM的强大功能,用户可以获得各种面部图像质量概念的解释以及面部图像质量评估(FIQA)算法结果的解读。我们实现了一个概念验证,展示了发行当局的专家如何将FaceOracle整合到他们的工作流程中,更有效地分析、理解和沟通他们的决策,从而提高生产力。
总结: FaceOracle通过对话式AI助手结合标准算法,提升了面部图像质量分析的效率和理解能力。
###【arXiv编号】2501.07202v1
###【领域】计算机视觉

[推荐指数:4]

推荐理由

FaceOracle将大型语言模型应用于面部图像质量分析,具有较高的创新性和实用性,能够显著提升相关工作流程的效率和准确性。


—第33篇----

=====

Inferring State Machine from the Protocol Implementation via Large Language Model

🔍 关键词: 状态机, 协议分析, 大型语言模型, ProtocolGPT, 协议模糊测试, 漏洞检测
链接1

摘要: 状态机在提高协议分析的效率以揭示更多漏洞方面起着关键作用。然而,从网络协议实现中推断状态机存在重大挑战,主要是由于复杂的代码语法和语义。基于动态分析的传统方法由于覆盖范围有限,常常忽略关键状态转换,而静态分析在面对协议实现时由于路径爆炸问题受到限制。为了解决这些限制,我们提出了一种由大型语言模型(LLMs)驱动的创新状态机推断方法,命名为ProtocolGPT。该方法利用检索增强生成技术,从协议实现中提取特定知识以增强预训练模型。通过有针对性的提示工程,我们系统地识别并推断出潜在的状态机。我们对六种协议实现进行了评估,展示了该方法的高效性,精度超过90%,并成功描绘了同一协议的不同实现之间的状态机差异。将我们的方法与协议模糊测试集成,显著提高了模糊测试工具的覆盖率超过20%,并比基线方法检测到了两个零日漏洞。我们提出的方法代表了准确状态机推断的重大进展,并突出展示了LLMs在增强网络协议安全分析中的巨大潜力。
总结: ProtocolGPT利用大型语言模型实现了高效准确的状态机推断,显著提升了协议分析和漏洞检测的能力。
###【arXiv:2405.00393】
###【期刊】
###【领域】计算机科学 - 密码学与安全性

[推荐指数:4]

推荐理由

该研究创新性地将大型语言模型应用于状态机推断,解决了传统方法的局限性,并在实际协议实现中展示了显著的效果,具备较高的实用价值和学术价值。


—第34篇----

=====

ConSim: Measuring Concept-Based Explanations’ Effectiveness with Automated Simulatability

🔍 关键词: 概念解释, 自动可模拟性, 大型语言模型, 模型评估
链接1

摘要: 概念基础的解释通过将复杂的模型计算映射到人类可理解的概念来工作。评估这样的解释非常困难,不仅包括可能概念空间的质量,还包括所选概念与用户沟通的有效性。现有的评估指标通常仅关注前者,忽视了后者。我们引入了一种通过自动可模拟性测量概念解释的评估框架:模拟器基于提供的解释预测被解释模型的输出的能力。这种方法考虑了概念空间及其解释的端到端评估。由于可模拟性的人类研究在大规模、全面的实证评估中难以实施(这是本文的主题),我们建议使用大型语言模型(LLMs)作为模拟器来近似评估,并报告了各种分析以使这种近似可靠。我们的方法允许在各种模型和数据集上进行可扩展和一致的评估。我们使用该框架报告了全面的实证评估,并展示了LLMs提供了一致的解释方法排名。代码可在https://github.com/AnonymousConSim/ConSim获取。

总结: 本文提出了一种利用大型语言模型进行概念解释效果评估的可扩展框架,并验证了其可行性与一致性。

###【arXiv编号】
2501.05855v2

###【git】
https://github.com/AnonymousConSim/ConSim

###【期刊】

###【领域】
计算机科学

[推荐指数:4]

推荐理由

该研究提出了一种创新且实用的评估框架,利用大型语言模型有效测量概念解释的可模拟性,具有较高的应用价值和学术价值。


—第35篇----

=====

PSA-VLM: Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment

🔍 关键词: 视觉-语言模型, 安全对齐, 概念瓶颈, 大型语言模型
链接1

摘要: 得益于大型语言模型(LLMs)的强大能力,连接到LLMs的预训练视觉编码器模型形成了视觉-语言模型(VLMs)。然而,最近的研究表明,VLMs中的视觉模态高度脆弱,攻击者可以通过视觉传输的内容绕过LLMs中的安全对齐,发动有害攻击。为了解决这一挑战,我们提出了一种渐进式基于概念的对齐策略PSA-VLM,该策略将安全模块作为概念瓶颈,增强视觉模态的安全对齐。通过将模型预测与特定安全概念对齐,我们提升了对有风险图像的防御能力,增强了可解释性和可控性,同时对整体性能的影响最小。我们的方法通过两阶段训练获得。第一阶段的低计算成本带来了非常有效的性能提升,第二阶段对语言模型的微调进一步提高了安全性能。我们的方法在流行的VLM安全基准上达到最先进的结果。
总结: PSA-VLM通过渐进式概念瓶颈对齐策略增强了视觉-语言模型的安全性,提升了对有风险图像的防御并实现了最先进的安全性能。
###【arXiv编号】2411.11543
###【期刊】
###【领域】计算机视觉、人工智能

[推荐指数:4]

推荐理由

方法新颖,通过概念瓶颈有效提升了视觉-语言模型的安全性,并在安全基准测试中取得了最先进的结果,具有较高的创新性和实用性。


—第36篇----

=====

文章名称

Amortizing intractable inference in diffusion models for vision, language, and control

🔍 关键词: 扩散模型, 后验推断, 视觉, 语言, 控制
链接1

摘要: 扩散模型已成为视觉、语言和强化学习中有效的分布估计器,但它们作为下游任务中的先验使用时带来了难以处理的后验推断问题。本文研究了后验 x ∼ p p o s t ( x ) ∝ p ( x ) r ( x ) \mathbf{x} \sim p^{\rm post}(\mathbf{x}) \propto p(\mathbf{x})r(\mathbf{x}) xppost(x)p(x)r(x) 的摊销采样,其中模型由扩散生成模型先验 p ( x ) p(\mathbf{x}) p(x) 和黑盒约束或似然函数 r ( x ) r(\mathbf{x}) r(x) 组成。我们阐述并证明了数据无关学习目标“相对轨迹平衡”的渐近正确性,用于训练从该后验采样的扩散模型,而现有方法仅能近似解决此问题或在受限情况下解决。相对轨迹平衡源于扩散模型的生成流网络视角,这允许使用深度强化学习技术来提高模式覆盖率。实验展示了在视觉(分类器指导)、语言(在离散扩散大型语言模型下填充)和多模态数据(文本到图像生成)方面在扩散先验下任意后验的无偏推断的广泛潜力。除了生成建模,我们还将相对轨迹平衡应用于具有得分基础行为先验的连续控制问题,在离线强化学习基准上取得了最先进的结果。
总结: 本文提出了一种相对轨迹平衡的方法,有效解决了扩散模型在视觉、语言和控制领域中的后验推断难题。
###【arXiv编号】2405.20971v2
###【git】###【期刊】###【领域】计算机科学(机器学习,计算机视觉)

[推荐指数:4]

推荐理由

创新性地结合生成流网络与深度强化学习技术,实用性强,适用于多个领域的后验推断问题,但缺乏代码和期刊发表信息。


—第37篇----

=====

Efficient Large Foundation Models Design: A Perspective From Model and System Co-Design

🔍 关键词: 大型基础模型, 模型与系统共设计, 训练与推理优化, 计算资源节省
链接1

摘要: 本文聚焦于基础模型的现代高效训练和推理技术,并从模型与系统设计两个角度进行了阐述。模型与系统设计从不同方面优化了大型语言模型(LLM)的训练和推理,以节省计算资源,使LLM更加高效、经济且易于获取。本文的代码仓库可在 https://github.com/NoakLiu/Efficient-Foundation-Models-Survey 获取。
总结: 通过模型与系统的协同设计,实现了大型基础模型的高效训练与推理,显著节省了计算资源。
###【arXiv编号】2409.01990v3
###【git】https://github.com/NoakLiu/Efficient-Foundation-Models-Survey
###【期刊】无
###【领域】计算机科学,机器学习

[推荐指数:4]

推荐理由

该论文从模型与系统共设计的视角系统性地优化了大型基础模型的训练和推理过程,具有较高的创新性和实用性,适合关注高效基础模型设计的研究者参考。

=====

—第38篇----

=====

Unveiling Code Clone Patterns in Open Source VR Software: An Empirical Study

🔍 关键词: 代码克隆, 虚拟现实, 开源软件, 实证研究
PDF Link

摘要: 代码克隆在软件开发中经常出现,往往导致各种维护和安全问题。尽管在传统软件中已经有大量关于代码克隆的研究,然而,据我所知,针对虚拟现实(VR)软件中克隆的研究尚缺乏,特别是考虑到其独特性,例如源代码中存在大量序列化文件。本文对345个开源VR项目中的软件克隆进行了首次大规模的定量实证分析,使用NiCad检测器进行源代码克隆检测,使用大型语言模型(LLMs)识别序列化文件克隆。我们的研究围绕七个精心制定的研究问题,揭示了VR软件中克隆现象的诸多见解。预计这些发现及其影响将为VR领域的研究人员和软件开发者提供有用的指导。

总结: 本研究首次大规模分析了开源VR软件中的代码克隆模式,为VR领域的软件开发和维护提供了重要见解。

###【arXiv:2501.07165v1】

###【git】

###【期刊】

###【领域】
虚拟现实软件开发与维护

[推荐指数:4]

推荐理由

本研究填补了VR软件代码克隆分析的研究空白,采用了先进的检测方法,并为VR软件的维护和安全提供了实用的指导,具有较高的创新性和实用性。


—第39篇----

=====

LayoutCopilot: An LLM-powered Multi-agent Collaborative Framework for Interactive Analog Layout Design

🔍 关键词: 大型语言模型, 多代理, 协同框架, 模拟布局设计, 电子设计自动化, 交互式设计
PDF链接

摘要: 模拟布局设计在很大程度上涉及人类与设计工具之间的交互过程。用于该任务的电子设计自动化(EDA)工具通常被设计为使用脚本命令或可视化按钮进行操作,特别是对于交互式自动化功能来说,这具有陡峭的学习曲线和繁琐的用户体验,成为设计师采用的显著障碍。为了解决这种可用性问题,本文介绍了LayoutCopilot,这是一种由大型语言模型(LLM)驱动的开创性多代理协同框架,用于交互式模拟布局设计。LayoutCopilot通过将自然语言指令转换为可执行的脚本命令,并将高级设计意图解释为可操作的建议,简化了人机交互,大大简化了设计过程。实验结果展示了LayoutCopilot在处理真实世界的模拟设计方面的灵活性、效率和可访问性。
总结: LayoutCopilot利用大型语言模型优化了模拟布局设计的交互流程,显著提升了设计效率和用户体验。

###【arXiv编号】2406.18873v3
###【领域】计算机科学,电子设计自动化

[推荐指数:4]

推荐理由

LayoutCopilot创新性地将大型语言模型应用于模拟布局设计的交互过程,显著改善了用户体验,具有较高的实用性和应用潜力。


—第40篇----

=====

An empirical study of LLaMA3 quantization: from LLMs to MLLMs

🔍 关键词: 量化, 大型语言模型, 多模态语言模型, 性能评估
PDF链接

摘要: LLaMA系列是一组基础的大型语言模型,参数规模从7B到65B不等,已成为最强大的开源大型语言模型之一,也是多模态大型语言模型(MLLMs)中广泛使用的LLM骨干,广泛应用于计算机视觉和自然语言理解任务。特别是最近发布的LLaMA3模型,通过在超过15万亿个数据标记上的超大规模预训练,在各个领域取得了令人印象深刻的性能。鉴于在资源受限场景中低位量化对LLMs的广泛应用,我们探索了将LLaMA3量化到低位宽时的能力。这一探索可能为LLaMA3及其他未来LLMs的低位量化提供新的见解和挑战,尤其是在解决LLM压缩中性能下降的问题方面。具体而言,我们全面评估了现有的10种后训练量化和LoRA微调(LoRA-FT)方法在1-8位及各种数据集上的LLaMA3低位量化性能,以揭示LLaMA3的低位量化表现。为了发掘低位量化MLLM的能力,我们评估了基于LLaMA3的LLaVA-Next-8B模型在2-4超低位宽下使用后训练量化方法的性能。实验结果表明,LLaMA3在语言和视觉上下文中仍存在显著的性能下降,尤其是在超低位宽下。这突显了未来发展中需解决的低位宽下的显著性能差距。我们希望这项实证研究能在推动未来模型发展方面发挥价值,促使LLMs和MLLMs在更低位宽下实现更高精度,以提升其实用性。我们的项目已发布在GitHub,量化模型已发布在HuggingFace

总结: 本文通过实证研究评估了LLaMA3在低位量化下的性能,揭示了当前量化方法在保持大型及多模态语言模型性能方面的挑战。

###【arXiv编号】2404.14047v3

###【git】https://github.com/Macaronlin/LLaMA3-Quantization

###【期刊】无

###【领域】计算机科学

[推荐指数:4]

推荐理由

本文系统地评估了LLaMA3在低位量化下的性能表现,针对大型语言模型和多模态模型的压缩提供了有价值的实证数据,具有较高的创新性和实用性。

=====

—第41篇----

=====

FlexQuant: Elastic Quantization Framework for Locally Hosted LLM on Edge Devices

🔍 关键词: 大型语言模型, 边缘设备, 量化框架, 内存弹性
PDF链接

摘要: 在边缘设备上部署大型语言模型(LLM)存在严峻的技术挑战。对于具有统一内存的边缘设备而言,内存弹性至关重要,因为内存是共享的且动态波动的。现有解决方案要么过渡粒度差,要么存储成本高。我们提出了FlexQuant,这是一种新型的弹性框架,生成了一组量化模型,提供了一种弹性托管解决方案,与最先进的方法相比,粒度提升了15倍,存储减少了10倍。FlexQuant适用于大多数量化方法,并通过我们的剪枝方法在各种存储限制下创建了一系列权衡选项。它为LLM在边缘设备上的部署带来了出色的性能和灵活性。
总结: FlexQuant是一种创新的弹性量化框架,通过生成量化模型集,实现了在边缘设备上高效部署大型语言模型,显著提升了粒度和存储效率。
###【arXiv编号】2501.07139v1
###【git】无
###【期刊】无
###【领域】计算机科学—人工智能,计算机科学—编程语言

[推荐指数:5]

推荐理由

FlexQuant通过创新的弹性框架显著提高了边缘设备上大型语言模型部署的效率和灵活性,具有高度的创新性和实用性,适用于多种量化方法。


—第42篇----

=====

LLM360 K2: Scaling Up 360-Open-Source Large Language Models

🔍 关键词: 无
PDF链接

摘要: 我们详细介绍了LLM360 K2-65B模型的训练过程,将我们的360度开源方法扩展到LLM360项目下最大和最强大的模型。尽管开源大型语言模型(LLMs)不断进步,社区内关于“最大的LLM是如何训练的?”这个问题仍不明确。由于其高成本,涉及此类高容量模型的实现细节通常因商业考虑而受到保护。这种缺乏透明度阻碍了LLM研究人员利用之前的经验中宝贵的见解,例如“应对损失峰值的最佳实践是什么?”LLM360 K2项目通过提供在大规模训练LLMs期间积累的资源的完全透明性和访问权限,解决了这一缺口。本报告强调了K2项目的关键要素,包括我们的第一个模型K2 DIAMOND,一个具有650亿参数的LLM,超越了LLaMA-65B,与LLaMA2-70B相媲美,同时需要更少的FLOP和令牌。我们详细描述了实施步骤,并呈现了K2 DIAMOND在整个训练过程中的能力的纵向分析。我们还概述了正在进行的项目,如TXT360,为系列未来的模型奠定了基础。通过提供以前无法获得的资源,K2项目也符合360度开源的透明性、可重复性和可访问性原则,我们认为这些在资源密集型的AI研究时代至关重要。
总结: 该研究通过完全透明的开源方法,成功训练了一个650亿参数的LLM模型,展示了其在效率和性能上的优势。
###【arXiv编号】2501.07124v1
###【git】无
###【期刊】无
###【领域】计算机科学 - 机器学习

[推荐指数:4]

推荐理由

该论文在开源大型语言模型训练方面提供了全面的透明性和详细的实施步骤,对于研究社区具有重要的参考价值,同时其模型在性能和效率上表现出色,具有较高的创新性和实用性。


—第43篇----

=====

How GPT learns layer by layer

🔍 关键词: 大型语言模型, 表示学习, OthelloGPT, 稀疏自编码器, 层级分析
链接1

摘要: 大型语言模型(LLMs)在语言处理、策略游戏和推理等任务中表现出色,但在构建适应性决策所需的通用内部表示方面存在困难。为了让代理能够有效地导航复杂环境,必须构建可靠的世界模型。尽管LLMs在特定基准测试中表现良好,但它们通常无法泛化,导致表示不稳定,限制了其在现实世界中的有效性。理解LLMs如何构建内部世界模型对于开发能够在各项任务中表现出一致性和适应性的代理至关重要。我们分析了OthelloGPT,这是一种基于GPT的模型,在Othello游戏中训练,作为研究表示学习的受控测试平台。尽管该模型仅在随机有效移动的下一个标记预测任务上进行了训练,OthelloGPT显示出在理解棋盘状态和游戏玩法方面有意义的逐层进展。早期层捕捉到诸如棋盘边缘的静态属性,而较深的层则反映动态的棋子变化。为了理解这些表示,我们比较了稀疏自编码器(SAEs)与线性探测器,发现SAEs提供了更健壮、解耦的组合特征洞察,而线性探测器主要检测对分类有用的特征。我们使用SAEs来解码与棋子颜色和棋子稳定性相关的特征,这是一个之前未被检验过的特征,反映了复杂的游戏概念,如棋盘控制和长期规划。我们研究了使用SAE和线性探测器捕捉模型学习内容的有效性的线性探测器准确性和棋子颜色进展。虽然我们开始时使用的是一个较小的语言模型OthelloGPT,但本研究建立了一个框架,用于更广泛地理解GPT模型、变压器和LLMs的内部表示。我们的代码已公开提供: https://github.com/ALT-JS/OthelloSAE
总结: 该研究通过分析OthelloGPT模型逐层构建内部表示,提供了理解大型语言模型如何学习和应用内部世界模型的新框架。
###【arXiv:2501.07108v1】
###【git: https://github.com/ALT-JS/OthelloSAE
###【期刊】
###【领域:计算机科学, 人工智能】

[推荐指数:4]

推荐理由

本研究提出了利用稀疏自编码器分析大型语言模型内部表示的方法,具有较高的创新性和实用性,且提供了公开代码,能够为进一步理解和改进LLMs提供有价值的参考。


—第44篇----

=====

MIO: A Foundation Model on Multimodal Tokens

🔍 关键词: 多模态, 基础模型, 自回归
链接1

摘要: 在本文中,我们介绍了MIO,一种基于多模态标记的新型基础模型,能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。尽管大型语言模型(LLMs)和多模态大型语言模型(MM-LLMs)的出现通过其多功能能力推动了人工通用智能的进步,但它们仍缺乏真正的任意到任意的理解和生成。最近,GPT-4o的发布展示了任意到任意LLMs在复杂现实任务中的显著潜力,能够实现跨图像、语音和文本的全方位输入和输出。然而,它是闭源的,并且不支持生成多模态交错序列。为解决这一差距,我们提出了MIO,它使用因果多模态建模在四种模态的离散标记上进行训练。MIO经历了四个阶段的训练过程:(1)对齐预训练,(2)交错预训练,(3)增强语音的预训练,以及(4)在各种文本、视觉和语音任务上的全面监督微调。我们的实验结果表明,MIO在某些情况下相较于之前的双模态基线、任意到任意模型基线甚至模态特定基线表现出竞争力,甚至更优。此外,MIO展现了其任意到任意特性的高级能力,如交错的视频-文本生成、可视化思维链推理、视觉指导生成、说明性图像编辑等。
总结: MIO是一个多模态基础模型,能够在语音、文本、图像和视频之间实现任意的理解与生成,并在多项任务中表现优异。

###【arXiv编号】2409.17692v3
###【git】
###【期刊】
###【领域】计算机科学, 人工智能, 多模态建模

[推荐指数:4]

推荐理由

MIO模型通过因果多模态建模和全面的训练过程,实现了跨语音、文本、图像和视频的任意理解和生成,具备创新性和实用性,且在多个基准测试中表现出色。


—第45篇----

=====

DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models

🔍 关键词: 大型语言模型, 诊断推理, 临床笔记, 医疗人工智能
PDF链接

摘要: 大型语言模型(LLMs)最近展示了卓越的能力,覆盖广泛的任务和应用领域,包括医疗领域。像GPT-4这样的模型在医疗问题回答方面表现出色,但在处理真实临床环境中的复杂任务时可能面临解释性不足的挑战。因此,我们引入了临床笔记的诊断推理数据集(DiReCT),旨在评估LLMs与人类医生在推理能力和解释性方面的差距。该数据集包含511份临床笔记,每份均由医生精心注释,详细描述了从临床笔记中的观察到最终诊断的诊断推理过程。此外,还提供了诊断知识图谱,提供现有LLMs训练数据中可能未涵盖的基本知识。对领先的LLMs在DiReCT上的评估凸显了它们的推理能力与人类医生之间的显著差距,强调了在真实世界临床场景中有效推理模型的关键需求。
总结: 该研究引入了一个用于评估大型语言模型在临床诊断推理方面能力的数据集,揭示了当前模型与人类医生之间的显著差距。
###【arXiv编号】 arXiv:2408.01933v4
###【git】 无
###【期刊】 未发表
###【领域】 计算机科学,人工智能,医疗人工智能

[推荐指数:4]

推荐理由

此文通过构建专门的诊断推理数据集,系统评估了大型语言模型在临床诊断中的推理能力,揭示了模型与人类医生之间的差距,具有重要的创新性和实际应用价值,有助于推动医疗人工智能的发展。


—第46篇----

=====

Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM’s Reasoning Capability

🔍 关键词: 计算机科学, 人工智能, 机器学习
链接1

摘要: 数学推理任务对大型语言模型(LLMs)构成了重大挑战,因为它们需要精确的逻辑推理和序列分析。在本研究中,我们引入了关键标记的概念——在推理轨迹中显著影响错误结果的元素。我们提出了一种通过展开采样识别这些标记的新框架,并展示了它们与传统错误标记的显著差异。通过在GSM8K和MATH500数据集上的广泛实验,我们表明识别并替换关键标记显著提高了模型的准确性。我们提出了一种使用对比估计在大规模数据集中准确定位这些标记的高效方法,并将这一框架扩展到通过直接偏好优化(DPO)增强模型训练过程。GSM8K和MATH500基准上使用广泛模型Llama-3(8B和70B)和Deepseek-math(7B)的实验结果证明了所提出的方法cDPO的有效性。我们的结果强调了利用关键标记减少推理任务中错误的潜力,推动了能够进行稳健逻辑推理的AI系统的发展。我们的代码、注释数据集和训练模型可在GitHub获取,以支持和鼓励该有前景领域的未来研究。

总结: 本文提出了一种通过识别和替换关键标记来提升大型语言模型数学推理能力的新方法,并在多个基准测试中证明了其有效性。

###【arXiv:2411.19943v3】

###【git: https://github.com/chenzhiling9954/Critical-Tokens-Matter

###【期刊: 未提供】

###【领域: 计算机科学, 人工智能, 机器学习】

[推荐指数:5]

推荐理由

该论文在提升大型语言模型的数学推理能力方面提出了创新的方法,通过关键标记的识别和替换显著提高了模型准确性,具有高度的创新性和实用性,值得推荐。


—第47篇----

=====

Large Action Models: From Inception to Implementation

🔍 关键词: 大规模行动模型, 人工智能, 智能代理, 语言模型, 自动化系统
链接1

摘要: 随着人工智能的不断进步,对超越基于语言的辅助系统、迈向能够执行现实世界动作的智能代理系统的需求日益增长。这一演变要求从擅长生成文本响应的传统大规模语言模型(LLMs)向旨在动态环境中生成和执行动作的大规模行动模型(LAMs)过渡。得益于代理系统,LAMs有潜力将人工智能从被动的语言理解转变为主动的任务完成,标志着迈向通用人工智能的重要里程碑。本文提出了一个全面的LAMs开发框架,提供了从构思到部署的系统化方法。我们首先概述了LAMs,强调其独特特性并区分于LLMs。以基于Windows操作系统的代理为案例研究,详细介绍了LAM开发的关键阶段,包括数据收集、模型训练、环境集成、基础化和评估。这一通用化的工作流程可作为在各种应用领域创建功能性LAMs的蓝图。最后,我们指出了LAMs的当前局限性,并讨论了未来研究和工业部署的方向,强调实现LAMs在现实世界应用中全部潜力的挑战与机遇。本文中使用的数据收集过程的代码公开在:https://github.com/microsoft/UFO/tree/main/dataflow,全面的文档可在 https://microsoft.github.io/UFO/dataflow/overview/ 查阅。
总结: 本文提出并系统化了大规模行动模型(LAMs)的开发框架,推动人工智能从被动语言理解向主动任务执行迈进。
###【arXiv编号】2412.10047v2
###【git】https://github.com/microsoft/UFO/tree/main/dataflow
###【期刊】无
###【领域】人工智能

[推荐指数:4]

推荐理由

该研究系统性地提出了大规模行动模型的发展框架,具有较高的创新性和实用性,能够推动AI在实际任务执行中的应用,尽管尚处于初步阶段,但前景广阔。

=====

—第48篇----

=====

ADKGD: Anomaly Detection in Knowledge Graphs with Dual-Channel Training

🔍 关键词: 异常检测, 知识图谱, 双通道训练
链接1

摘要: 在当前大型语言模型(LLM)的发展中,确保底层数据源的准确性和可靠性至关重要。LLMs 对各种应用至关重要,但由于训练数据中的知识缺口,它们经常出现幻觉和不准确。知识图谱(KG)作为一种强大的结构化工具,可以作为减轻上述问题的重要外部信息源。通过提供对现实世界数据的结构化和全面理解,KGs 提升了 LLMs 的性能和可靠性。然而,在从非结构化数据中提取三元组以构建 KGs 时,KGs 中常存在错误。这可能导致下游任务(如问答和推荐系统)的性能下降。因此,KGs 的异常检测对于识别和纠正这些错误至关重要。本文提出了一种具有双通道学习的知识图谱异常检测算法(ADKGD)。ADKGD 利用双通道学习方法,从实体视角和三元组视角增强表示学习。此外,使用跨层方法,我们的框架整合了内部信息聚合和上下文信息聚合。我们引入了 Kullback-Leibler(KL)损失组件,以提高双通道之间评分函数的准确性。为了评估 ADKGD 的性能,我们在三个真实世界的 KGs 上进行了实证研究:WN18RR、FB15K 和 NELL-995。实验结果表明,ADKGD 优于最先进的异常检测算法。源代码和数据集公开可在 https://github.com/csjywu1/ADKGD 获取。
总结: ADKGD 提出了一种创新的双通道学习方法,用于提高知识图谱中的异常检测性能。

###【arXiv编号】2501.07078v1
###【git】https://github.com/csjywu1/ADKGD
###【期刊】无
###【领域】计算机科学(人工智能,数据库)

[推荐指数:4]

推荐理由

ADKGD 提出了双通道学习的异常检测方法,显著提升了知识图谱的可靠性,且代码公开,具有较高的创新性和实用性。


—第49篇----

=====

Topic-Aware Knowledge Graph with Large Language Models for Interoperability in Recommender Systems

🔍 关键词: 推荐系统, 知识图谱, 大型语言模型, 主题提取
PDF链接

摘要: 知识图谱在推荐系统中的应用已成为解决数据稀疏和冷启动问题的常见方法。近年来,大型语言模型(LLMs)的进步为处理知识图谱中的边信息和上下文信息带来了新的可能性。然而,由于需要领域专家的干预以及系统特性的差异,不同系统之间的一致集成仍然具有挑战性。为了解决这些问题,我们提出了一种一致的方法,利用LLMs从边信息和上下文信息中提取通用和特定主题。首先,迭代地从边信息中提取和更新通用主题。然后,使用上下文信息提取特定主题。最后,为了解决特定主题提取过程中生成的同义主题问题,采用一种精炼算法进行处理和解决。这种方法使通用主题能够捕捉跨多样化项目特性的广泛知识,而特定主题则强调详细属性,提供了对项目语义特征和用户偏好的更全面理解。实验结果显示,在多样化知识图谱中的推荐性能有显著提升。
总结: 本文提出了一种利用大型语言模型从知识图谱中提取通用与特定主题的方法,显著提升了推荐系统的性能。

###【arXiv:2412.20163v2】
###【git】
###【期刊】
###【领域】计算机科学 - 信息检索, 人工智能

[推荐指数:4]

推荐理由

该研究创新性地结合大型语言模型与知识图谱,提出了有效的主题提取方法,解决了推荐系统中的关键问题,具有较高的实用价值和研究潜力。


—第50篇----

=====

LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs’ Vulnerability Reasoning

🔍 关键词: 大型语言模型, 漏洞检测, 评估框架, 人工智能, 软件工程
链接1

摘要: 大型语言模型(LLMs)在各类任务中展现出了显著的潜力,包括那些需要人类级智能的任务,如漏洞检测。然而,近期将LLMs用于漏洞检测的努力仍处于初级阶段,因为缺乏深入了解主LLM的漏洞推理能力是源于模型本身还是外部辅助工具,如知识检索和工具支持。在本文中,我们旨在将LLMs的漏洞推理与其他能力(如漏洞知识采纳、上下文信息检索和高级提示方案)解耦。我们引入了LLM4Vuln,一个统一的评估框架,用于分离和评估LLMs的漏洞推理能力,并检验与其他增强功能结合时的改进。我们在Solidity、Java和C/C++中使用147个真实漏洞和147个非漏洞案例进行了受控实验,总共在四个LLM(GPT-3.5、GPT-4、Phi-3和Llama 3)下测试了3,528个场景。我们的研究发现了知识增强、上下文补充和提示方案的不同影响。我们还在四个试点漏洞赏金计划中发现了14个零日漏洞,获得了3,576美元的赏金。
总结: 本文提出了LLM4Vuln统一评估框架,旨在解耦大型语言模型在漏洞推理中的能力,并通过实验验证了其在漏洞检测中的有效性。
###【arXiv编号】 arXiv:2401.16185
###【git】
###【期刊】
###【领域】 计算机科学,人工智能,软件工程

[推荐指数:4]

推荐理由

LLM4Vuln提供了一个创新且实用的框架,用于深入评估和提升大型语言模型在漏洞检测中的推理能力,有助于推进安全领域的研究和应用。


—第51篇----

=====

Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values

🔍 关键词: 大型语言模型, 价值对齐, 评价平台, 价值多元性
PDF链接

摘要: 隨著大型語言模型(LLMs)取得顯著突破,使其價值觀與人類一致已成為其負責任發展和定制化應用的必要條件。然而,目前尚缺乏能夠滿足三個期望目標的LLMs價值評估方法。(1)價值澄清:我們期望從整體上準確且全面地澄清LLMs的潛在價值,而現有的評估方法過於狹窄地關注偏見和毒性等安全風險。(2)評估有效性:現有的靜態、開源基準容易受到數據污染的影響,並且隨著LLMs的演進迅速過時。此外,這些判別性評估揭示了LLMs對價值的知識,而不是對LLMs行為是否符合價值的有效評估。(3)價值多元性:在衡量LLMs價值對齊時,很大程度上忽略了個體和文化之間人類價值的多元性。為了解決這些挑戰,我們提出了Value Compass Leaderboard,包含三個相應設計的模塊。它(i)基於動機上不同的基本價值,從整體上澄清LLMs的潛在價值;(ii)應用生成式演進評估框架,使用自適應測試項以適應不斷演進的LLMs,並直接從現實情境中的行為中識別價值;(iii)提出了一種通過多個維度加權總和來量化LLMs與特定價值對齊程度的指標,權重由多元價值決定。

总结: 本文提出了一個全面評估大型語言模型價值對齊的平台,旨在解決價值澄清、評估有效性和價值多元性等挑戰。

###【arXiv编号】2501.07071v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能

[推荐指数:4]

推荐理由

该研究在大型语言模型的价值对齐评价方面具有创新性,提出了多维度且具有适应性的评估框架,适用于不断发展的AI模型。

=====

—第52篇----

=====

Enhancing Image Generation Fidelity via Progressive Prompts

🔍 关键词: 图像生成, 扩散变压器, 区域提示控制, 细化生成管道
链接1

摘要: 扩散变压器(DiT)架构在图像生成领域受到广泛关注,能够实现更高的保真度、性能和多样性。然而,大多数现有的基于DiT的图像生成方法侧重于全局感知的合成,对区域提示控制的探索较少。本文提出了一种用于区域提示跟随生成的由粗到细的生成管道。具体来说,我们首先利用强大的大型语言模型(LLM)生成图像的高层描述(如内容、主题和对象)和低层描述(如细节和风格)。然后,我们探索了不同深度的交叉注意力层的影响。我们发现,深层总是负责高层内容控制,而浅层处理低层内容控制。各种提示被注入到所提出的区域交叉注意力控制中,以实现由粗到细的生成。通过使用所提出的管道,我们增强了基于DiT的图像生成的可控性。大量定量和定性结果表明,我们的管道可以提高生成图像的性能。

总结: 本文通过引入由粗到细的生成管道,增强了基于扩散变压器的图像生成的可控性和性能。

###【arXiv编号】2501.07070v1

###【git】

###【期刊】

###【领域】计算机视觉

[推荐指数:4]

推荐理由

该研究在图像生成领域提出了创新的区域提示控制方法,通过结合大型语言模型和交叉注意力层的深度控制,实现了更高的图像生成质量,具有较高的创新性和实用性。


—第53篇----

=====

Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models

🔍 关键词: 自然语言处理, 人工智能
链接1

摘要: 对于大型语言模型(LLMs)来说,遵循涉及多个约束的指令至关重要。然而,软约束在语义上相关且难以通过自动化方法验证。这些约束仍然是LLMs面临的重大挑战。为了增强LLMs遵循软约束的能力,我们最初设计了一个流程来自动获取高质量的输出。此外,为了充分利用获取的数据,我们引入了基于课程学习的训练范式。我们通过实验评估了我们的方法在提升LLMs软约束遵循能力方面的有效性,并分析了驱动改进的因素。数据集和代码公开在 https://github.com/Rainier-rq/FollowSoftConstraints
总结: 本文提出了一种通过自动化流程和课程学习训练范式提升大型语言模型遵循软约束能力的方法。

###【arXiv编号】2501.04945v2
###【git】https://github.com/Rainier-rq/FollowSoftConstraints
###【期刊】无
###【领域】计算机科学

[推荐指数:4]

推荐理由

该研究在提升大型语言模型处理复杂软约束方面具有创新性,方法有效且提供了公开的数据和代码,实用性高,尽管可能需要进一步的实际应用验证。


—第54篇----

=====

MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs

🔍 关键词: cs.CV, cs.AI, cs.CL
链接1

摘要: 比较对象、场景或情况的能力对于日常生活中的有效决策和问题解决至关重要。然而,在人工通用智能(AGI)中,比较能力在很大程度上尚未被探索。本文介绍了MLLM-CompBench,这是一个旨在评估多模态大型语言模型(MLLMs)比较推理能力的基准。MLLM-CompBench通过视觉导向的问题挖掘和配对图像,涵盖了相对比较的八个维度:视觉属性、存在、状态、情感、时间性、空间性、数量和质量。我们使用来自各种视觉数据集的元数据和CLIP相似性分数策划了大约40K的图像对。这些图像对涵盖了广泛的视觉领域,包括动物、时尚、体育以及室内和室外场景。问题经过精心设计,以区分两个图像之间的相对特征,并由人工注释员进行标注以确保准确性和相关性。我们使用MLLM-CompBench评估了最近的MLLMs,包括GPT-4V(ision)、Gemini-Pro和LLaVA-1.6。我们的结果揭示了它们在比较能力上的显著不足。我们相信,MLLM-CompBench不仅揭示了这些限制,还为未来MLLMs比较能力的提升奠定了坚实的基础。
总结: 本文提出了一个新的多模态大型语言模型比较推理能力的基准,揭示了现有模型的不足,为未来研究提供了基础。
###【2407.16837v2】
###【】
###【arXiv】
###【计算机视觉, 人工智能, 计算语言学】

[推荐指数:4]

推荐理由

该研究提出了一个重要的基准,系统评估多模态大型语言模型的比较推理能力,填补了AGI领域的研究空白,具有较高的创新性和实用性。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值