- 博客(29)
- 收藏
- 关注
原创 【复杂指令遵循 Benchmark】论文分享:CodeIF-Bench
论文名称:CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation;机构:北航 + 华为云
2025-06-05 12:49:09
882
原创 【复杂指令遵循 Benchmark】论文分享:CodeIF
论文名称:CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation;机构:北航 + 清华 + 新加坡国立大学
2025-06-03 09:03:58
1124
原创 【LLM 指令遵循】论文分享: Web Reconstruction
论文名称:Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction;机构:香港科技大学 + 华为诺亚方舟实验室
2025-05-30 09:14:11
1161
原创 【LLM 指令遵循】论文分享:ULTRAIF
论文名称:UltraIF: Advancing Instruction Following from the Wild;机构:上海AI Lab + 北大 + 清华
2025-05-28 22:46:15
1062
原创 【Code Agent Benchmark】论文分享:Web Bench
论文名称:Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks;机构:字节跳动
2025-05-27 09:13:12
1119
原创 Claude Code Agent 模式深度解读(二)!Tool的设计要高度服务于产品本身
Claude Code Agent 模式深度解读(二)!Tool的设计要高度服务于产品本身
2025-05-26 09:34:18
1320
原创 Claude Code Agent 模式深度解读(一)!Anthropic提出的下一代Code CLI工具
Claude Code Agent 模式深度解读(一)!Anthropic提出的下一代Code CLI工具
2025-05-25 10:29:46
1345
原创 【Code Agent Benchmark】论文分享:TAU-Bench
论文名称:τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains;机构:Sierra
2025-05-24 21:49:25
889
原创 【General Agent Benchmark】论文分享:WorfBench
论文名称:Benchmarking Agentic Workflow Generation;机构:浙大 + 通义
2025-05-23 13:38:25
531
原创 【Code Agent Benchmark】论文分享:SWE-bench
论文名称:SWE-bench: Can Language Models Resolve Real-World GitHub Issues?;机构:普林斯顿大学 + OpenAI
2025-05-22 10:00:30
1020
原创 Windsurf Agent 模式深度解读(二)!只要LLM撑得住,Tool有的是
Windsurf Agent 模式深度解读(二)!只要LLM撑得住,Tool有的是
2025-05-21 16:06:42
1054
原创 Windsurf Agent 模式深度解读(一)!比Cursor的方案更有未来?
Windsurf Agent 模式深度解读(一)!比Cursor的方案更有未来?
2025-05-20 09:46:04
874
原创 【General Agent Benchmark】论文分享:LLF-Bench
论文名称:LLF-Bench: Benchmark for Interactive Learning from Language Feedback;机构:微软
2025-05-19 14:39:59
979
原创 【LLM MoE Pretrain】论文分享:DeepSeekMoE
论文名称:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models;机构:DeepSeek AI + 北大 + 清华 + 南大
2025-05-18 10:05:17
1011
原创 【General Agent Benchmark】论文分享:AgentBench
论文名称:AgentBench: Evaluating LLMs as Agents;机构:清华 ChatGLM 团队
2025-05-17 09:20:47
860
原创 【LLM Tool Learning】论文分享:SWiRL(Multi-Step)
论文名称:Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use;机构:斯坦福大学计算机科学系 + Google DeepMind
2025-05-16 09:03:06
1273
原创 Manus AI 原理深度解析第二篇:Modules & Agent Loop
Manus AI 原理深度解析第二篇:Modules & Agent Loop
2025-05-14 22:09:35
1336
原创 【General Agent Benchmark】论文分享:GAIA
论文名称:GAIA: a benchmark for General AI Assistants;机构:Meta + Huggingface + AutoGPT
2025-05-10 06:48:59
1086
原创 【LLM 代码生成】论文分享:LLM-Adaptive Difficulty CoT Data Pipeline
论文名称:Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading;机构:中兴智能系统部
2025-05-08 12:43:00
1411
原创 Cursor Agent 模式深度解析,创业者必学!
Cursor的Agent模式写代码如此好用,怎么能不让人一窥其背后的设计原理呢?请看此篇解读
2025-05-07 11:02:11
944
原创 【LLM 代码生成】论文分享:SVRC CoT Data Pipeline
论文名称:Think Like Human Developers: Harnessing Community Knowledge for Structured Code Reasoning;机构:新加坡管理大学 + 悉尼大学
2025-05-04 10:32:35
960
原创 【LLM RM】论文分享:DeepSeek-GRM
论文名称:Inference-Time Scaling for Generalist Reward Modeling;机构:DeepSeek AI + 清华
2025-05-03 07:30:00
1000
原创 【LLM Tool Learning】论文分享:AutoCoA
论文名称:Agent models: Internalizing Chain-of-Action Generation into Reasoning models;机构:北京交通大学
2025-05-02 18:00:00
867
原创 【LLM Tool Learning论文推荐】教大模型用外部搜索工具加强回答能力
R1-Searcher、Search-R1 以及 ReSearch
2025-05-02 14:30:00
279
原创 【LLM Tool Learning】论文分享:Search-R1
论文名称:ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning;机构:百川智能
2025-05-02 10:08:48
1159
原创 【LLM Tool Learning】论文分享:Search-R1
论文名称:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning;机构:伊利诺伊大学厄巴纳-香槟分校 + 马萨诸塞大学阿默斯特分校
2025-05-02 09:55:16
760
原创 【LLM Tool Learning】论文分享:R1-Searcher
人大高瓴人工智能学院提出的两阶段RL框架,通过调用搜索工具增强LLM回答能力,优于一众RAG方法
2025-05-02 09:43:19
1201
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人