reback_-CSDN博客

原创《SWE-BENCH PRO》精读：与 SWE-Bench-Verify 的差异解析及优化方向探究

本文提出SWE-BenchPRO评测基准，旨在解决现有SWE评测的三个关键缺陷：1）通过GPL许可证和私有代码库构建抗污染数据集（公共集731个、商业集276个）；2）筛选工业级复杂度任务（平均修改107.4行代码/4.1个文件）；3）采用三阶段人类增强（问题陈述+需求清单+接口定义）消除任务歧义。实验显示，移除人类增强时模型性能下降50%以上，前沿模型在商业集通过率不足20%。该基准更真实反映工业开发需求，但存在语言覆盖有限等局限性。

2026-01-30 17:07:01 680

原创 Qoder-cli 自动化使用教程实战指南

阿里云推出Qoder-cli命令行AI编程助手，基于通义千问大模型，支持自然语言编程和代码审查。该工具提供三种安装方式（CURL、Homebrew、NPM），支持macOS/Linux/Windows系统。用户可通过浏览器或Token两种方式登录，并支持交互式TUI模式和非交互式自动化模式。Qoder-cli具备多参数配置功能，包括输出格式设置、工作区指定、会话管理及权限控制等，适用于日常开发和CI/CD场景。

2026-01-15 11:16:58 1341

原创 Trae-cli 自动化使用教程实战指南

详细讲解了Trae-cli和Qoder-cli的自动化使用教程

2026-01-14 20:41:44 2842

原创 Multi-SWE-Bench实战超详细版

本文介绍了Multi-SWE-Bench基准测试平台的使用流程，该平台用于评估大型语言模型在多语言软件工程任务中的表现。主要内容包括：1) 环境搭建和数据集准备；2) 通过Comate等智能体生成补丁的方法；3) 评估配置文件的构造和运行评估的步骤。平台支持7种语言，评估过程需要较高硬件配置（300GB存储、16GB内存）。文章详细说明了从数据获取、补丁生成到最终评估的全流程，并提供了结果文件示例，帮助开发者全面掌握该基准测试的实际应用。

2025-11-27 17:54:14 1236 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 《SWE-BENCH PRO》精读：与 SWE-Bench-Verify 的差异解析及优化方向探究

原创 Qoder-cli 自动化使用教程实战指南

原创 Trae-cli 自动化使用教程实战指南

原创 Multi-SWE-Bench实战超详细版

空空如也

空空如也

原创《SWE-BENCH PRO》精读：与 SWE-Bench-Verify 的差异解析及优化方向探究