自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 《SWE-BENCH PRO》精读:与 SWE-Bench-Verify 的差异解析及优化方向探究

本文提出SWE-BenchPRO评测基准,旨在解决现有SWE评测的三个关键缺陷:1)通过GPL许可证和私有代码库构建抗污染数据集(公共集731个、商业集276个);2)筛选工业级复杂度任务(平均修改107.4行代码/4.1个文件);3)采用三阶段人类增强(问题陈述+需求清单+接口定义)消除任务歧义。实验显示,移除人类增强时模型性能下降50%以上,前沿模型在商业集通过率不足20%。该基准更真实反映工业开发需求,但存在语言覆盖有限等局限性。

2026-01-30 17:07:01 680

原创 Qoder-cli 自动化使用教程实战指南

阿里云推出Qoder-cli命令行AI编程助手,基于通义千问大模型,支持自然语言编程和代码审查。该工具提供三种安装方式(CURL、Homebrew、NPM),支持macOS/Linux/Windows系统。用户可通过浏览器或Token两种方式登录,并支持交互式TUI模式和非交互式自动化模式。Qoder-cli具备多参数配置功能,包括输出格式设置、工作区指定、会话管理及权限控制等,适用于日常开发和CI/CD场景。

2026-01-15 11:16:58 1341

原创 Trae-cli 自动化使用教程实战指南

详细讲解了Trae-cli和Qoder-cli的自动化使用教程

2026-01-14 20:41:44 2842

原创 Multi-SWE-Bench实战超详细版

本文介绍了Multi-SWE-Bench基准测试平台的使用流程,该平台用于评估大型语言模型在多语言软件工程任务中的表现。主要内容包括:1) 环境搭建和数据集准备;2) 通过Comate等智能体生成补丁的方法;3) 评估配置文件的构造和运行评估的步骤。平台支持7种语言,评估过程需要较高硬件配置(300GB存储、16GB内存)。文章详细说明了从数据获取、补丁生成到最终评估的全流程,并提供了结果文件示例,帮助开发者全面掌握该基准测试的实际应用。

2025-11-27 17:54:14 1236 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除