依然易冷-CSDN博客

原创【APR-自动代码修复】论文分享：PyTy

论文名称：PyTy: Repairing Static Type Errors in Pythonl；机构：斯图加特大学

2025-06-21 13:14:07 1152

原创【LLM Tool Learning】Chain-of-Tools 项目关键代码解读

论文名称：Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models；机构：苏州大学

2025-06-15 21:14:53 1263

原创【LLM Tool Learning】论文分享： Chain-of-Tools

论文名称：Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models；机构：苏州大学

2025-06-14 14:52:55 1679

原创【复杂指令遵循 Benchmark】论文分享：CodeIF-Bench

论文名称：CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation；机构：北航 + 华为云

2025-06-05 12:49:09 1139

原创【复杂指令遵循 Benchmark】论文分享：CodeIF

论文名称：CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation；机构：北航 + 清华 + 新加坡国立大学

2025-06-03 09:03:58 1389

原创【LLM 指令遵循】论文分享： Web Reconstruction

论文名称：Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction；机构：香港科技大学 + 华为诺亚方舟实验室

2025-05-30 09:14:11 1314

原创【LLM 指令遵循】论文分享：ULTRAIF

论文名称：UltraIF: Advancing Instruction Following from the Wild；机构：上海AI Lab + 北大 + 清华

2025-05-28 22:46:15 1362

原创【Code Agent Benchmark】论文分享：Web Bench

论文名称：Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks；机构：字节跳动

2025-05-27 09:13:12 1571

原创 Claude Code Agent 模式深度解读（二）！Tool的设计要高度服务于产品本身

Claude Code Agent 模式深度解读（二）！Tool的设计要高度服务于产品本身

2025-05-26 09:34:18 2725

原创 Claude Code Agent 模式深度解读（一）！Anthropic提出的下一代Code CLI工具

Claude Code Agent 模式深度解读（一）！Anthropic提出的下一代Code CLI工具

2025-05-25 10:29:46 4335

原创【Code Agent Benchmark】论文分享：TAU-Bench

论文名称：τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains；机构：Sierra

2025-05-24 21:49:25 2906

原创【General Agent Benchmark】论文分享：WorfBench

论文名称：Benchmarking Agentic Workflow Generation；机构：浙大 + 通义

2025-05-23 13:38:25 734

原创【Code Agent Benchmark】论文分享：SWE-bench

论文名称：SWE-bench: Can Language Models Resolve Real-World GitHub Issues?；机构：普林斯顿大学 + OpenAI

2025-05-22 10:00:30 3155

原创 Windsurf Agent 模式深度解读（二）！只要LLM撑得住，Tool有的是

Windsurf Agent 模式深度解读（二）！只要LLM撑得住，Tool有的是

2025-05-21 16:06:42 1521

原创 Windsurf Agent 模式深度解读（一）！比Cursor的方案更有未来？

Windsurf Agent 模式深度解读（一）！比Cursor的方案更有未来？

2025-05-20 09:46:04 1613

原创【General Agent Benchmark】论文分享：LLF-Bench

论文名称：LLF-Bench: Benchmark for Interactive Learning from Language Feedback；机构：微软

2025-05-19 14:39:59 1229

原创【LLM MoE Pretrain】论文分享：DeepSeekMoE

论文名称：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models；机构：DeepSeek AI + 北大 + 清华 + 南大

2025-05-18 10:05:17 1389

原创【General Agent Benchmark】论文分享：AgentBench

论文名称：AgentBench: Evaluating LLMs as Agents；机构：清华 ChatGLM 团队

2025-05-17 09:20:47 2284

原创【LLM Tool Learning】论文分享：SWiRL（Multi-Step）

论文名称：Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use；机构：斯坦福大学计算机科学系 + Google DeepMind

2025-05-16 09:03:06 1652

原创 Manus AI 原理深度解析第三篇：Tools

Manus AI 原理深度解析第三篇：Tools

2025-05-15 21:56:46 1662

原创 Manus AI 原理深度解析第二篇：Modules & Agent Loop

Manus AI 原理深度解析第二篇：Modules & Agent Loop

2025-05-14 22:09:35 1860

原创 Manus AI 原理深度解析第一篇：Prompt

Manus AI Agent原理解析第一篇

2025-05-12 13:30:34 2473

原创【General Agent Benchmark】论文分享：GAIA

论文名称：GAIA: a benchmark for General AI Assistants；机构：Meta + Huggingface + AutoGPT

2025-05-10 06:48:59 2728

原创【LLM 代码生成】论文分享：LLM-Adaptive Difficulty CoT Data Pipeline

论文名称：Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading；机构：中兴智能系统部

2025-05-08 12:43:00 2309

原创 Cursor Agent 模式深度解析，创业者必学！

Cursor的Agent模式写代码如此好用，怎么能不让人一窥其背后的设计原理呢？请看此篇解读

2025-05-07 11:02:11 2388

原创【LLM 代码生成】论文分享：SVRC CoT Data Pipeline

论文名称：Think Like Human Developers: Harnessing Community Knowledge for Structured Code Reasoning；机构：新加坡管理大学 + 悉尼大学

2025-05-04 10:32:35 1210

原创【LLM RM】论文分享：DeepSeek-GRM

论文名称：Inference-Time Scaling for Generalist Reward Modeling；机构：DeepSeek AI + 清华

2025-05-03 07:30:00 1578

原创【LLM Tool Learning】论文分享：AutoCoA

论文名称：Agent models: Internalizing Chain-of-Action Generation into Reasoning models；机构：北京交通大学

2025-05-02 18:00:00 1160

原创【LLM Tool Learning论文推荐】教大模型用外部搜索工具加强回答能力

R1-Searcher、Search-R1 以及 ReSearch

2025-05-02 14:30:00 462

原创【LLM Tool Learning】论文分享：Search-R1

论文名称：ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning；机构：百川智能

2025-05-02 10:08:48 1478

原创【LLM Tool Learning】论文分享：Search-R1

论文名称：Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning；机构：伊利诺伊大学厄巴纳-香槟分校 + 马萨诸塞大学阿默斯特分校

2025-05-02 09:55:16 1035

原创【LLM Tool Learning】论文分享：R1-Searcher

人大高瓴人工智能学院提出的两阶段RL框架，通过调用搜索工具增强LLM回答能力，优于一众RAG方法

2025-05-02 09:43:19 1497

LG154721的博客

原创【APR-自动代码修复】论文分享：PyTy

原创【LLM Tool Learning】Chain-of-Tools 项目关键代码解读

原创【LLM Tool Learning】论文分享： Chain-of-Tools

原创【复杂指令遵循 Benchmark】论文分享：CodeIF-Bench

原创【复杂指令遵循 Benchmark】论文分享：CodeIF

原创【LLM 指令遵循】论文分享： Web Reconstruction

原创【LLM 指令遵循】论文分享：ULTRAIF

原创【Code Agent Benchmark】论文分享：Web Bench

原创 Claude Code Agent 模式深度解读（二）！Tool的设计要高度服务于产品本身

原创 Claude Code Agent 模式深度解读（一）！Anthropic提出的下一代Code CLI工具

原创【Code Agent Benchmark】论文分享：TAU-Bench

原创【General Agent Benchmark】论文分享：WorfBench

原创【Code Agent Benchmark】论文分享：SWE-bench

原创 Windsurf Agent 模式深度解读（二）！只要LLM撑得住，Tool有的是

原创 Windsurf Agent 模式深度解读（一）！比Cursor的方案更有未来？

原创【General Agent Benchmark】论文分享：LLF-Bench

原创【LLM MoE Pretrain】论文分享：DeepSeekMoE

原创【General Agent Benchmark】论文分享：AgentBench

原创【LLM Tool Learning】论文分享：SWiRL（Multi-Step）

原创 Manus AI 原理深度解析第三篇：Tools

原创 Manus AI 原理深度解析第二篇：Modules & Agent Loop

原创 Manus AI 原理深度解析第一篇：Prompt

原创【General Agent Benchmark】论文分享：GAIA

原创【LLM 代码生成】论文分享：LLM-Adaptive Difficulty CoT Data Pipeline

原创 Cursor Agent 模式深度解析，创业者必学！

原创【LLM 代码生成】论文分享：SVRC CoT Data Pipeline

原创【LLM RM】论文分享：DeepSeek-GRM

原创【LLM Tool Learning】论文分享：AutoCoA

原创【LLM Tool Learning论文推荐】教大模型用外部搜索工具加强回答能力

原创【LLM Tool Learning】论文分享：Search-R1

原创【LLM Tool Learning】论文分享：Search-R1

原创【LLM Tool Learning】论文分享：R1-Searcher

空空如也

空空如也