自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 LongLoRA:高效扩展大语言模型上下文长度的微调方法

大语言模型(LLMs)通常在预定义的上下文长度下进行训练,例如 LLaMA 的 2048 个 token 和 Llama2 的 4096 个 token。可以看出,随着上下文长度的增加,注意力计算的比例急剧增加,而 ΔS²-Attn 有效降低了注意力计算的 FLOPs。LongLoRA 旨在以更低的计算成本高效地扩展预训练 LLMs 的上下文长度,同时保持与全量微调相近的性能。通过这些创新和实验结果,LongLoRA 为高效扩展 LLMs 的上下文长度提供了新的思路和方法。

2025-01-26 23:01:43 1636

原创 高效流式大语言模型(StreamingLLM)——基于“注意力汇聚点”的突破性研究

Transformer架构的LLMs在解码阶段会缓存所有先前token的键值对(KV),导致内存消耗随序列长度呈二次增长,显著增加了解码延迟。StreamingLLM利用注意力汇聚点具有高注意力值的特点,通过保留它们,可以将注意力分数分布保持在接近正常的水平。图7:有无Sink Token的模型在平均注意力logits上的可视化。,一种高效的框架,使LLMs能够处理无限长度的文本,而无需任何微调。图5:StreamingLLM在超长文本上的语言建模困惑度。图1:StreamingLLM与现有方法的对比。

2025-01-26 22:59:27 1457

原创 Direct Preference Optimization (DPO): 一种无需强化学习的语言模型偏好优化方法

在 Anthropic HH 对话数据集上,DPO 是唯一一种在计算效率高的前提下,能够超越首选完成度的方法,并且其性能与计算成本更高的 Best of 128 基线相当。为了验证 GPT-4 评估的可靠性,本文进行了人类研究,发现 GPT-4 的判断与人类判断的一致性较高,表明 GPT-4 是人类评估的合理代理。在控制情感生成任务中,DPO 在奖励-KL 散度边界上表现优异,能够在保持低 KL 散度的同时,实现更高的奖励,优于 PPO 等方法。表示较不受偏好的响应。表示更受偏好的响应,

2025-01-25 21:23:57 1813

原创 深度解读:近端策略优化算法(PPO)

PPO 是一种高效且易于实现的策略优化算法简化实现: 只需对原始策略梯度方法进行少量代码修改。适用性广: 可用于更广泛的架构,包括策略和价值函数共享参数的情况。性能优越: 在连续控制和 Atari 游戏任务中均表现出色。PPO 的成功在于其创新的目标函数设计,通过截断概率比和自适应 KL 惩罚系数,有效解决了传统策略梯度方法中策略更新过大的问题,同时保持了良好的数据效率和性能。

2025-01-25 21:16:13 1947

原创 HUMANITY’S LAST EXAM (HLE) 综述:人工智能领域的“最终考试”

除了公共集之外,还保留了一个私有保留集,以评估模型在公共基准测试上的过度拟合和作弊行为。随着大型语言模型(LLMs)能力的飞速发展,其在数学、编程、生物等领域的任务表现已超越人类。为了系统地衡量这些能力,LLMs 需要接受基准测试(Benchmarks)的评估。HLE 为 AI 领域提供了一个全新的、极具挑战性的评估平台,将有助于推动 AI 技术的持续进步,并为 AI 治理提供重要的参考依据。图 5:测试的推理模型的平均完成标记计数,包括推理和输出标记。应运而生,旨在成为评估 AI 学术能力的。

2025-01-24 21:15:09 1653

原创 突破数学推理中的过程奖励模型:最新研究与实践指南

近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍然会犯错误,例如计算错误或逻辑错误,导致错误的结论。即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,最终答案建立在错误的计算或推导之上,这削弱了LLMs推理过程的可信度和可靠性。作为一种新兴的方法,PRMs旨在识别并减少推理过程中的错误,从而实现对推理过程的更细粒度监督。我们发布了一个有效的PRM,展示了其优越的性能,并通过大量实验验证了共识过滤机制的有效性。我们的研究为未来PRMs的构建和评估提供了宝贵的见解和实践指南。

2025-01-24 21:12:51 707

原创 Kimi k1.5:基于大语言模型的多模态强化学习训练技术报告

近年来,基于下一个词预测的语言模型预训练在扩展计算能力方面取得了显著成效,但其发展受限于高质量训练数据的数量。为了突破这一瓶颈,Kimi团队提出了。未来,Kimi 团队将继续探索提高长上下文 RL 训练效率和可扩展性的方法,并研究在不损害模型探索能力的情况下改进信用分配和减少过度思考的方法。,旨在通过奖励机制引导模型探索学习,从而实现训练数据的持续扩展。

2025-01-23 20:21:17 1632

原创 PaSa:基于大语言模型的综合学术论文搜索智能体

学术论文搜索是科研的核心环节,但面临诸多挑战:现有的学术搜索引擎(如Google Scholar)虽然对一般查询有效,但在处理复杂查询时往往力不从心,导致研究人员需要花费大量时间进行文献综述。为了应对上述挑战,本文提出了 PaSa,一种基于大语言模型(LLM)的智能体,旨在模拟人类行为,实现全面且精准的学术论文搜索。PaSa 由两个 LLM 智能体组成:PaSa 在 AGILE(一种针对 LLM 智能体的强化学习框架)中进行优化。爬虫训练:构建方法:从论文的“相关工作”部分提取查询,并使用 GPT-4o 生

2025-01-23 19:15:36 1807

原创 Titans: 学习在测试时记忆 - 论文解读与总结

本文介绍了一篇由 Google Research 发表的关于新型神经网络架构 Titans 的论文,该架构旨在解决传统 Transformer 在处理长序列时的局限性。

2025-01-22 22:06:29 1234

原创 ToolHop: 多跳工具使用评估基准的全面解析

ToolHop 通过创新的查询驱动数据构建方法,为评估 LLMs 的多跳工具使用能力提供了一个全面且可靠的基准。它不仅揭示了当前模型在工具使用方面的不足,还为未来的研究和发展指明了方向。

2025-01-22 21:46:51 890

原创 SELF-RAG: 通过自我反思学习检索、生成和批判

SELF-RAG 是一种创新的框架,通过按需检索和自我反思来提高 LLM 的生成质量和事实准确性。实验结果表明,SELF-RAG 在多个任务上均优于现有的 LLM 和 RAG 方法。SELF-RAG 的核心思想是让 LLM 在生成过程中进行自我反思,并通过生成特殊的**反思标记(Reflection Tokens)**来控制其行为。SELF-RAG 在推理过程中通过生成反思标记来自我评估其输出,从而实现对模型行为的控制。来提高 LLM 的生成质量和事实准确性,同时不损害其创造力和灵活性。

2025-01-21 22:13:06 1235

原创 HippoRAG:受海马体启发的长时记忆模型,提升大语言模型的知识整合能力

HippoRAG 是一种受神经生物学原理启发的 RAG 框架,通过模拟人类长时记忆的机制,显著提升了 LLM 的知识整合能力。其在多跳 QA 上的出色表现和效率提升,使其成为 LLM 长时记忆的有力解决方案。HippoRAG 旨在模拟上述人类记忆模型,为 LLM 提供长时记忆。

2025-01-21 22:08:16 1715

原创 利用大语言模型进行长文本抽取式摘要的突破

然而,传统的抽取式摘要方法多依赖于预训练的编码器模型,在处理长文本时存在一定的局限性。通过EYEGLAXS,我们看到了大语言模型在文本摘要领域的广阔前景。未来,随着技术的不断进步,文本摘要技术将更加智能、高效,为信息处理带来更多可能性。在信息爆炸的时代,如何从海量文本中快速提取关键信息成为了一项至关重要的技能。这两个广泛使用的科学论文数据集上进行了实验,结果表明,EYEGLAXS在多个指标上均优于现有的抽取式摘要方法。在长文本抽取式摘要任务中的巨大潜力,突破了传统方法的局限。,用于长文本的抽取式摘要。

2025-01-20 23:31:34 1066

原创 如何让大语言模型更好地理解科学文献?

尽管大语言模型(LLMs)在自然语言处理方面取得了显著成功,但在科学文献理解方面仍面临挑战,主要由于缺乏科学知识和对特定科学任务的不熟悉。为了开发专门用于科学文献理解的LLM,我们提出了一种混合策略,结合持续预训练(CPT)和监督微调(SFT),以同时注入科学领域知识和增强特定任务的指令遵循能力。SciLitLLM在科学文献理解任务上表现优异,7B和14B版本的模型在SciAssess和SciRIFF基准测试中均取得了领先的成绩。为了确保生成指令的质量,我们采用启发式去重和基于LLM的过滤方法。

2025-01-20 23:23:56 1459

原创 LongRecipe——高效扩展大语言模型上下文窗口的秘籍

大语言模型(LLMs)在自然语言处理和多模态任务中扮演着至关重要的角色。然而,在处理长上下文任务时,它们面临着显著的挑战。LongRecipe提供了一种高效且有效的方法来扩展LLMs的上下文窗口,在显著减少计算资源的同时,提升了模型对长程依赖关系的理解能力。,一种高效的LLMs上下文窗口扩展训练策略。图2:不同方法下token间平均距离对比。本文内容仅供参考,不代表任何官方立场。图1:LongRecipe方法概述。,限制了模型对长序列的泛化能力。为了应对上述挑战,我们提出了。图3:不同训练阶段性能对比。

2025-01-19 21:19:17 960

原创 ALR²:一种用于长上下文问答的检索-推理框架

为了缓解长上下文推理的挑战,我们开发了一种检索-推理框架,使LLMs能够通过中间检索步骤收集的相关证据进行推理。通过广泛的实验,我们证明了ALR²在长上下文问答任务中显著优于现有基线方法,特别是在长上下文场景中。此外,我们展示了ALR²对未见数据的良好泛化能力,为长上下文问答问题提供了一种稳健的解决方案。例如,基于RAG公式的方法难以增强摘要任务,因为长上下文中的所有信息对最终预测都很重要。我们发现,现代LLMs在现实场景中难以高精度地检索,并且经常产生“检索事实”的幻觉,导致推理错误和生成错误答案。

2025-01-19 21:11:29 871

原创 大型语言模型(LLM)在算法设计中的系统性综述

LLM与算法设计的结合为算法开发带来了革命性的机遇。本文系统地回顾了LLM在算法设计中的应用现状,并提出了未来研究的方向。我们期待这一新兴领域能够不断创新,为算法设计带来更多突破。

2025-01-17 17:00:00 1124

原创 文本摘要研究:从统计方法到大型语言模型

近年来,文本摘要研究经历了多次重大变革,从深度神经网络的出现到预训练语言模型(PLMs),再到如今的大型语言模型(LLMs)。本文将带您深入了解这一领域的最新进展和演变历程。

2025-01-17 11:41:42 1037

原创 强化学习全解析:从基础概念到前沿方法

随着深度学习和计算能力的提升,强化学习在游戏、机器人、自动驾驶等领域取得了令人瞩目的成就。未来,强化学习将继续与人工智能的其他领域深度融合,推动智能系统的发展。智能体根据当前状态选择动作,环境则根据动作反馈新的状态和奖励,智能体利用这些信息不断更新自身状态并优化策略,以最大化累积奖励。基于模型的方法首先学习环境模型,然后利用该模型进行规划或模拟,以优化策略。图1:智能体与环境的交互示意图。智能体根据当前状态选择动作,环境则反馈新的状态和观察。基于价值的方法通过学习价值函数来指导策略的优化。

2025-01-16 21:46:30 1900

原创 大语言模型增强推荐系统:分类、趋势、应用与未来

然而,随着越来越多的研究关注于将LLM集成到在线系统中,特别是避免在推理过程中使用LLM,LLM增强推荐系统(LLMERS)领域正迅速发展。LEADER【41】是这一领域的先驱,它使用LLM最后一层的隐藏状态通过可训练的适配器来蒸馏RS模型。前者通常捕捉项目之间的关系,而后者提取更复杂的用户偏好。尽管LLMERS也基于传统RS,但它通常需要丰富的辅助信息,特别是信息丰富的文本,以充分利用LLM的推理和理解能力。为了解决传统推荐系统中的数据稀疏性问题,数据增强是一种直接的方法【27】,其目标是生成新的交互。

2025-01-16 21:35:29 1332

原创 MiniMax开源了?竟是为了引领长上下文 AI 新时代

论文地址:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf官方推送:https://mp.weixin.qq.com/s/YYtyqVhnyqRBDPinZxByyA。

2025-01-15 10:02:21 1597

原创 EpiCoder:基于特征树的代码生成框架——提升代码大语言模型的多样性与复杂性

EpiCoder框架的核心在于其基于特征树的代码生成方法特征树提取(Feature Tree Extraction)图1:特征树提取过程种子数据收集:从The Stack v2等大规模代码数据集中获取种子数据,确保数据的多样性和全面性。树结构构建:利用强大的大语言模型(如GPT-4o)从种子数据中提取特征,并通过迭代优化生成树结构演示。特征树提取:使用优化后的树结构演示,指导LLM从原始代码数据中提取树状特征表示,并合并成统一的特征树结构。

2025-01-14 14:28:50 836

原创 Agent Laboratory:利用大语言模型 (LLM) 代理作为研究助手

Agent Laboratory 是一个基于 LLM 的自主代理框架,旨在加速机器学习研究。它将人类监督与 LLM 代理的自主性相结合,帮助研究人员将更多精力投入到创造性构思和实验设计等创造性工作中,而不是低级的编码和写作任务。科学研究通常是一个漫长且昂贵的过程,从最初的想法到最终成果需要耗费大量时间和资源。,一个基于 LLM 的自主框架,能够完成从文献综述到实验再到报告撰写的整个研究流程。论文地址:https://arxiv.org/pdf/2501.04227。

2025-01-14 11:11:51 1256

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除