自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 【复杂指令遵循 Benchmark】论文分享:CodeIF-Bench

论文名称:CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation;机构:北航 + 华为云

2025-06-05 12:49:09 882

原创 【复杂指令遵循 Benchmark】论文分享:CodeIF

论文名称:CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation;机构:北航 + 清华 + 新加坡国立大学

2025-06-03 09:03:58 1124

原创 【LLM 指令遵循】论文分享: Web Reconstruction

论文名称:Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction;机构:香港科技大学 + 华为诺亚方舟实验室

2025-05-30 09:14:11 1161

原创 【LLM 指令遵循】论文分享:ULTRAIF

论文名称:UltraIF: Advancing Instruction Following from the Wild;机构:上海AI Lab + 北大 + 清华

2025-05-28 22:46:15 1062

原创 【Code Agent Benchmark】论文分享:Web Bench

论文名称:Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks;机构:字节跳动

2025-05-27 09:13:12 1119

原创 Claude Code Agent 模式深度解读(二)!Tool的设计要高度服务于产品本身

Claude Code Agent 模式深度解读(二)!Tool的设计要高度服务于产品本身

2025-05-26 09:34:18 1320

原创 Claude Code Agent 模式深度解读(一)!Anthropic提出的下一代Code CLI工具

Claude Code Agent 模式深度解读(一)!Anthropic提出的下一代Code CLI工具

2025-05-25 10:29:46 1345

原创 【Code Agent Benchmark】论文分享:TAU-Bench

论文名称:τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains;机构:Sierra

2025-05-24 21:49:25 889

原创 【General Agent Benchmark】论文分享:WorfBench

论文名称:Benchmarking Agentic Workflow Generation;机构:浙大 + 通义

2025-05-23 13:38:25 531

原创 【Code Agent Benchmark】论文分享:SWE-bench

论文名称:SWE-bench: Can Language Models Resolve Real-World GitHub Issues?;机构:普林斯顿大学 + OpenAI

2025-05-22 10:00:30 1020

原创 Windsurf Agent 模式深度解读(二)!只要LLM撑得住,Tool有的是

Windsurf Agent 模式深度解读(二)!只要LLM撑得住,Tool有的是

2025-05-21 16:06:42 1054

原创 Windsurf Agent 模式深度解读(一)!比Cursor的方案更有未来?

Windsurf Agent 模式深度解读(一)!比Cursor的方案更有未来?

2025-05-20 09:46:04 874

原创 【General Agent Benchmark】论文分享:LLF-Bench

论文名称:LLF-Bench: Benchmark for Interactive Learning from Language Feedback;机构:微软

2025-05-19 14:39:59 979

原创 【LLM MoE Pretrain】论文分享:DeepSeekMoE

论文名称:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models;机构:DeepSeek AI + 北大 + 清华 + 南大

2025-05-18 10:05:17 1011

原创 【General Agent Benchmark】论文分享:AgentBench

论文名称:AgentBench: Evaluating LLMs as Agents;机构:清华 ChatGLM 团队

2025-05-17 09:20:47 860

原创 【LLM Tool Learning】论文分享:SWiRL(Multi-Step)

论文名称:Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use;机构:斯坦福大学计算机科学系 + Google DeepMind

2025-05-16 09:03:06 1273

原创 Manus AI 原理深度解析第三篇:Tools

Manus AI 原理深度解析第三篇:Tools

2025-05-15 21:56:46 1281

原创 Manus AI 原理深度解析第二篇:Modules & Agent Loop

Manus AI 原理深度解析第二篇:Modules & Agent Loop

2025-05-14 22:09:35 1336

原创 Manus AI 原理深度解析第一篇:Prompt

Manus AI Agent原理解析第一篇

2025-05-12 13:30:34 1447

原创 【General Agent Benchmark】论文分享:GAIA

论文名称:GAIA: a benchmark for General AI Assistants;机构:Meta + Huggingface + AutoGPT

2025-05-10 06:48:59 1086

原创 【LLM 代码生成】论文分享:LLM-Adaptive Difficulty CoT Data Pipeline

论文名称:Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading;机构:中兴智能系统部

2025-05-08 12:43:00 1411

原创 Cursor Agent 模式深度解析,创业者必学!

Cursor的Agent模式写代码如此好用,怎么能不让人一窥其背后的设计原理呢?请看此篇解读

2025-05-07 11:02:11 944

原创 【LLM 代码生成】论文分享:SVRC CoT Data Pipeline

论文名称:Think Like Human Developers: Harnessing Community Knowledge for Structured Code Reasoning;机构:新加坡管理大学 + 悉尼大学

2025-05-04 10:32:35 960

原创 【LLM RM】论文分享:DeepSeek-GRM

论文名称:Inference-Time Scaling for Generalist Reward Modeling;机构:DeepSeek AI + 清华

2025-05-03 07:30:00 1000

原创 【LLM Tool Learning】论文分享:AutoCoA

论文名称:Agent models: Internalizing Chain-of-Action Generation into Reasoning models;机构:北京交通大学

2025-05-02 18:00:00 867

原创 【LLM Tool Learning论文推荐】教大模型用外部搜索工具加强回答能力

R1-Searcher、Search-R1 以及 ReSearch

2025-05-02 14:30:00 279

原创 【LLM Tool Learning】论文分享:Search-R1

论文名称:ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning;机构:百川智能

2025-05-02 10:08:48 1159

原创 【LLM Tool Learning】论文分享:Search-R1

论文名称:Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning;机构:伊利诺伊大学厄巴纳-香槟分校 + 马萨诸塞大学阿默斯特分校

2025-05-02 09:55:16 760

原创 【LLM Tool Learning】论文分享:R1-Searcher

人大高瓴人工智能学院提出的两阶段RL框架,通过调用搜索工具增强LLM回答能力,优于一众RAG方法

2025-05-02 09:43:19 1201

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除