随着 AI 编码工具的出现,编码行业正在经历快速的变化,这些工具的范围从基本的代码补全到完整的软件开发生命周期。
让我们借用自动驾驶汽车的术语,将这些工具分为五个级别:L1 到 L5。
级别 | 高级方法 | 示例流行产品 |
L1 | 代码级补全 | GitHub Copilot, Tabby |
L2 | 任务级代码生成 工单转代码 集成聊天的 IDE | ChatGPT, Claude aider, cline, 16x Prompt Cursor, Continue, PearAI, Windsurf |
L3 | 项目级生成 工单转 PR 提示转 UI | Codegen, Sweep Pythagora, Plandex v0 |
L4 | PRD 转生产 AI 软件工程师 | Marblism, bolt.new, Trickle, Lovable Devin, Genie, Engine, devlo, Gru |
L5 | AI 开发团队 | AutoDev, MetaGPT, MGX |
2025 年 1 月 AI 编码格局的 2D 象限可视化图
代码补全 (L1)
在基础层,像 GitHub Copilot 这样的 L1 工具专注于代码补全。
这些工具对开发人员很有用,可以通过智能建议和补全来简化编码过程。
它们现在已经成为现代开发环境中的常态,为更高级的 AI 编码工具铺平了道路。
代码补全 (L1) 产品
• 付费:
• GitHub Copilot
• Codium
• Codeium
• 开源:
• Tabby
任务级自动化 (L2)
L2 专注于任务级自动化。
我们有像 ChatGPT 这样的大型语言模型 (LLM)。它们擅长处理开发任务,例如基于描述性提示的新功能、错误修复和重构。
但是,使用 LLM 进行编码任务可能具有挑战性。我们需要精心设计的提示和相关的源代码上下文才能生成高质量的代码。手动创建这些提示可能非常耗时和繁琐。
为了解决这些问题,我们有工作流自动化工具,例如 aider(命令行工具)和 16x Prompt(桌面应用程序),它们旨在简化生成提示并从 LLM 获得最佳质量代码的过程。
我们还有像 Cursor、Continue 和 PearAI 这样的 IDE 和 IDE 扩展,它们将 LLM 集成到开发环境中,为开发人员提供无缝体验。
这些工具开始进入市场,为开发人员提供更友好的界面,与 LLM 交互并自动化编码任务。
任务级自动化 (L2) 产品
• LLM:
• ChatGPT
• Claude
• 工作流自动化工具:
• aider (命令行工具)
• 16x Prompt (桌面应用程序)
• IDE 扩展:
• cline
• Continue
• Amazon Q Developer
• IDE:
• Replit CDE (云开发环境)
• Cursor
• PearAI
• Windsurf
• Trae
项目级自动化 (L3)
L3 代表了项目级自动化的早期阶段。Codegen、Sweep 和 Pythagora 等工具展示了获取项目、分析其需求并生成相关拉取请求的能力。
这些 L3 工具的一个关键特性是能够自动化软件开发过程的多个步骤,例如需求收集、代码生成、拉取请求创建和部署。这是通过与 Jira 等项目管理工具和 GitHub 等源代码平台集成来实现的。
但是,这些系统处于初步阶段,能够管理相对简单的编码项目并生成基本的代码片段。它们需要人工干预以确保代码质量和相关性,从而限制了它们的自主性。
一些工具(如 Vercel 的 v0、Tempo Labs 的 Tempo 和 CerebrasCoder)允许您端到端生成网站。但是,它们通常只处理软件技术堆栈的一部分,例如前端。
项目级自动化 (L3) 产品
• 付费:
• Codegen
• Sweep
• Vercel 的 v0
• Tempo Labs 的 Tempo
• 免费:
• CerebrasCoder
• LlamaCoder
• AppCrapper (需要 API 密钥)
• 部分开源:
• Pythagora
• Plandex
AI 软件工程师 (L4)
L4 标志着从人类驱动的编码到 AI 驱动的软件开发的关键转变。开发过程完全自动化,从产品需求到生产部署。
在这个级别,我们有像 Devin、Marblism 和 Cosine 的 Genie 这样的工具。
他们设想拥有访问终端和部署工具的能力,能够管理整个开发活动范围。
这些先进的系统可以解释产品需求、管理代码部署并在生产环境中维护软件,体现了 AI 软件工程师的角色。它们使非技术人员能够在几分钟内从零开始构建功能齐全的软件产品。
AI 软件工程师 (L4) 产品
• 专注于全栈 Web 开发:
• Replit Agent
• Marblism
• bolt.new
• Trickle
• Lovable
• 已发布,公开可用:
• devlo - 在 SWE-bench Verified 上获得 54.20 分 (2024-11-08)
• Gru - 在 SWE-bench Verified 上获得 45.20 分 (2024-08-24)
• Devin - 基于代理计算单元 (ACU) 的 250 个 ACU 批量定价 500 美元
• 已发布,需要联系销售/加入:
• Engine - 在 SWE-bench Verified 上获得 51.80 分 (2024-11-25)
• Factory Code Droid - 在 SWE-bench Full 上获得 19.27 分 (2024-06-17)
• 即将推出/等待列表/请求提前访问:
• Solver - 在 SWE-bench Verified 上获得 50.00 分 (2024-10-28)
• Genie - 世界上最好的 AI 软件工程师
• Tessl - AI 原生开发平台
AI 开发团队 (L5)
在 L5,AI 编码很可能涉及一个 AI 系统,其中包含多个如上所述的 AI 软件工程师。这些 AI 代理可以协作并一起处理一个项目,每个代理都专注于软件开发的不同方面。
例如,在微软的 AutoDev 论文中,有人提出代理可以“接收来自代理调度器的目标和对话历史,并根据规则和操作配置响应指定的操作”。
但是,在论文中仅使用“单个 GPT-4 代理”进行评估。
该类别中的另一个产品是 MGX。它由 MetaGPT 团队设计,目前正在等待列表中。
随着 GPT-5 预计在 2025 年发布,AI 开发团队的梦想并非遥不可及。
我们可能会看到这样的未来:AI 系统可以复制整个软件开发团队,在软件创建的不同方面进行编码和协作。
AI 开发团队 (L5) 产品
• 研究:
• AutoGen
• AutoDev
• 开源:
• MetaGPT
• 商业等待列表:
• MetaGPT 团队的 MGX
• 商业联系销售:
• MultiDevin
哪个级别适合您?
AI 编码工具的选择取决于您的需求和项目的复杂性。
如果您只需要代码补全方面的帮助,则像 GitHub Copilot 这样的 L1 工具就足够了。
对于更复杂的任务,例如功能开发和错误修复,可以将 ChatGPT 或 Claude 3 等 L2 LLM 与 aider 或 16x Prompt 等工作流自动化工具一起使用。
如果您喜欢冒险并想尝试项目级自动化,则像 Codegen 或 Sweep 这样的 L3 工具将是一个不错的起点。
此外,您不必坚持一个级别。您可以结合使用不同级别的工具来满足您的特定要求。
例如,我使用 GitHub Copilot 进行可以在 5 秒内解决的简单代码补全任务,使用 ChatGPT 和 16x Prompt 进行需要几分钟提示的更复杂任务。
展望未来
在 2024 年,AI 在编码中的作用正在迅速发展,从基本的语法帮助到完整的开发生命周期管理。
随着 AI 的不断成熟,我们可以期待更复杂的工具,它们将重新定义编码格局,使开发人员能够专注于更高级别的任务,而 AI 则处理软件开发的常规方面。