自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

空空如也

### Seed-Thinking技术报告详细介绍

### Seed-Thinking技术报告详细介绍

2025-04-28

这篇文章探讨了通过引入自动化的链式行动(AutoCoA)框架来增强大型代理模型(LAMs)的能力

AGENT MODELS: INTERNALIZING CHAIN-OF-ACTION GENERATION INTO REASONING MODELS内容概要:本文介绍了大型智能体模型(LAMs)的发展及其内部化动作链(CoA)生成的研究。传统智能体工作流依赖外部提示来管理与工具和环境的交互,限制了推理模型的自主性。为解决这一问题,作者提出了AutoCoA框架,结合监督微调(SFT)和强化学习(RL),使模型能够在推理过程中自主决定何时以及如何使用外部工具。AutoCoA框架的主要组件包括步骤级动作触发、轨迹级CoA优化和内部世界模型,以减少实际环境交互成本。实验表明,AutoCoA训练的智能体模型在需要长期推理和多步动作的任务完成率上显著优于基于ReAct的工作流。 适合人群:对智能体模型、推理模型及强化学习感兴趣的科研人员和工程师,尤其是关注智能体如何结合工具使用进行复杂任务处理的研究者。 使用场景及目标:①研究智能体如何在推理过程中自主决定使用外部工具;②探索如何通过内部化CoA生成提升智能体的多轮工具使用能力;③评估智能体在复杂知识搜索任务中的表现。 其他说明:本文不仅探讨了智能体模型的技术实现,还展望了未来发展方向,如开放任务处理、强化微调(RFT)的应用以及智能体操作系统的构建。此外,文中还详细描述了实验设置、比较方法及结果分析,提供了丰富的数据支持。

2025-04-28

multi-agent如何设计:Multi-Agent Large Language Models for Conversational Task-Solving

multi-agent如何设计:Multi-Agent Large Language Models for Conversational Task-Solving

2025-01-15

蒙特卡洛树结合llm模型论文

蒙特卡洛树结合llm模型论文

2025-01-14

rag发展总结综述,介绍4中进阶方式

rag发展总结综述,介绍4中进阶方式

2025-01-12

Qwen2.5 Technical Report 详细技术报告

Qwen2.5 Technical Report 详细技术报告

2024-12-25

Teaching Small Language Models to Reason 小模型如何在大模型中生效

Teaching Small Language Models to Reason 小模型如何在大模型中生效

2024-12-25

phi4-技术报告,详细介绍模型设计原理

phi4-技术报告,详细介绍模型设计原理

2024-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除