【AGI-Eval行业动态 NO.10】一文看懂,字节开源多语言的​​Multi-SWE-bench 的背后深意

字节跳动于4月3日在 arXiv 预印本平台正式发布了 ​ ​Multi-SWE-bench 基准测试,并于​ ​ 4月7日​​ 通过技术博客和行业媒体对外公布完整研究成果,那么该基准测试有什么特别之处?本期将为大家深度解读

1.Multi-SWE-bench 发布意义

2.字节今年上半年发展线路

3.各个产品和其他的横向对比产品

4.字节下半年产品发布预期表

1.Multi-SWE-bench 发布意义

字节跳动研发团队最新发布的Multi-SWE-bench基准测试,以7种主流编程语言、1632个人工验证的GitHub Issue实例,这项发表于2024年的研究不仅揭示了LLM在多语言环境下的真实能力边界,更通过开源社区建设打开了强化学习在软件工程领域的新想象空间。

1.1解决当前评测两大问题

Multi-SWE-bench 数据集是业内首个面向多语言代码问题修复的大模型评测基准,覆盖 Java、TypeScript、C、C++、Go、Rust 和 JavaScript 等编程语言。同时还开源了 Multi-SWE-RL,为 RL 在真实代码环境中的训练提供了标准化、可复用的数据基础设施。

1)解决评测集语言维度单一问题

当前主流评测几乎全部集中在 Python,缺乏其他语言覆盖,难以评估模型的跨语言泛化能力,Multi-SWE-bench 首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建了多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;

2)解决评测集难度不足问题

当前现有基准多为短 patch、单文件修复,未覆盖超多文件、多步骤、超长上下文等复杂开发场景,Multi-SWE-bench 引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;

该评测集中的1632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

1.2重要意义

1)多语言评估体系革新​:突破现有代码修复基准的Python单一语言局限,​​首次建立覆盖7大工业级编程语言(Java/TypeScript/JavaScript/Go/Rust/C/C++)的跨语言评测标准​​。通过​​五级数据过滤机制​​(仓库筛选→PR采集→环境构建→语义验证→人工复核),从2,456个候选样本中精选1,632个高质量实例,构建专家标注金字塔体系(68名专业标注员+14人内部团队双重验证),实现​​92%标注准确率与0.89 Kappa可靠性系数​​,为多语言代码智能研究提供黄金标准

2)技术框架与开源生态协同突破:提出​​三阶段评估方法论​​(无代理方案/智能体协作/开放工具链),系统性验证LLM在跨语言场景的性能边界。通过实验揭示​​主流模型在非Python语言(如TypeScript/C++)的修复成功率较Python平均下降27%​​,暴露出多语言泛化能力短板。同步开源 ​​Multi-SWE-RL社区​​,提供4723个容器化训练样本与全流程数据生产工具链(Docker环境+测试套件+语义映射),支持强化学习的持续迭代优化,推动代码修复技术从单点突破向系统化演进

3)开源协作范式创新​:设计​​标准化开源协作框架​​,通过自动化验证工具(代码差分比对/测试套件集成)将社区贡献效率提升300%,并首创​​增量式标注协议​​支持数据集动态扩展。该模式已吸引​​17个开源组织 ​​参与共建,涵盖金融科技、云计算、物联网等领域,形成“评估-训练-应用”闭环生态,为多语言代码智能研究提供可持续基础设施

论文链接:https://arxiv.org/abs/2504.02605

榜单链接:https://multi-swe-bench.github.io

代码链接:https://github.com/multi-swe-bench/multi-swe-bench

数据链接:https://huggingface.co/datasets/ByteDance-Seed/Multi-SWE-bench

2.字节今年上半年发展线路

Multi-SWE-bench 的发布值超越传统基准测试范畴,推动了模型自动编程能力向更实用、更工程化的方向发展,其实字节跳动今年上半年也做了非常多的关键动作,下面给大家按照时间性整理了一份

时间动作方向项目名称关键内容关键意义
​​2025.1.22​​模型更新豆包大模型1.5Pro发布​​​- 新增视觉理解(Doubao-1.5-vision-pro)和端到端语音模型
- 支持256k长文本处理
- 价格保持"加量不加价"
字节模型实现多模态能力突破,视觉模块支持电商/虚拟偶像落地,语音交互时延降低至200ms级
​​2025.1.25​​战略布局AGI长期研究项目"Seed Edge"启动​​​​- 聚焦推理边界、感知融合、新学习范式等五大方向
- 预算超1500亿元
字节明确AGI技术路径,通过独立算力支持与长周期考核机制推动原创性突破
​​2025.2.14​​组织架构调整全员会反思DeepSeek影响​​​​- 成立独立Seed团队(基础模型研发)
- Flow团队专注AI应用开发
内部团队调整,明确发展方向,加速大模型产品落地节奏
​​2025.3.4​​评测体系升级开源知识推理评测集SuperGPQA​​- 覆盖285个学科26,529道题
- 人机协作质检机制
突破传统基准学科覆盖局限,DeepSeek-R1准确率仅61.82%暴露模型短板
​​2025.4.10​​技术开源Multi-SWE-bench开源​- 首个多语言软件工程数据集
- 覆盖7种编程语言,1632真实GitHub Issue
推动AI编程评估进入多语言时代,填补非Python语言评测空白

可以看到字节从模型的单点开发到开源生态建设,字节更加注重生态发展,比如从单点工具(MarsCode)到基础设施(评测集)的体系化输出,今年上半年侧重提升自身在行业内的影响力,塑造全球竞争力。

3.各个产品和其他的横向对比产品

那么既然字节想要打造自己的全球影响力,当前字节旗下的AI产品竞争力又如何?我们一起来盘点下字节目前的产品性能

字节跳动AI产品与竞品差异点深度对比(截至2025.04.10)

类别字节产品核心竞品关键差异点
对话助手豆包 1.5ProChatGPT o11. 模型架构有差异:豆包1.5Pro 为稀疏MoE架构,激活参数约200B,等效1.4T稠密模型性能;​​ChatGPT o1​ 为密集 TransformerE架构,推测参数量1.8T;2.价格不同:豆包1.5Pro 的输入0.0008元/千Token,输出0.002元/千Token;​ChatGPT Pro订阅价$200/月,API调用成本为豆包的30倍;3.评测得分不同:豆包 1.5Pro 主要在中文侧有统治力,CMMLU得分为90.9,数学推理OlympiadBench得分为59.8;ChatGPT o1 为国际化覆盖,AIME数学竞赛得分为 83%,SWE-Lancer(编码)得分为67%
智能体开发扣子/CozeManus1. 开发门槛不同:代码拖拽式智能体编排框架(预置抖音/飞书模块),Manus需API订阅与代码调试;2.工具链整合​​:扣子原生支持多智能体协作与动态环境适配,Manus依赖第三方工具集成;
图像视频生成星绘/DreaminaMidjourney1. 生成效率:星绘生成效率为0.5秒/张 ,Midjourney.2秒/张;2.生成算法​​:独家「光影重构」算法(基于物理渲染优化),Midjourney依赖Stable Diffusion扩散模型;2. 真实度突破:独家"光影重构"算法使电商场景商品图错误率低于1%,抖音电商素材库支持(商品识别准确率98%),Midjourney缺乏垂直领域优化;
编程工具TraeGitHub Copilot1. 语言覆盖:Trae支持15种语言Bug检测 ,GitHub Copilot 仅为10种;2. ​本地化架构​​:Trae支持开源+容器化部署(支持15语言LSP协议),GitHub Copilot仅云端服务;
自动化工具Agent TARSClaude1. 视觉精度:亚像素级定位(<0.5px误差) vs 依赖XPath解析(易受界面变动影响)2. 开源生态:Agent TARS 完整开源工具链, Claude为闭源API调用
多模态自动化LangManusAutoGen1. 领域预置:LangManus内置金融/电商标准化工作流 ,AutoGen 需自行搭建;2. 并发能力:LangManus 分布式任务调度(100+任务/分钟),AutoGen为10并发限制
系统级AI助手UI-TARS DesktopGPT-4o1. 本地化部署:UI-TARS Desktop为开源桌面端方案 ,GPT-4o仅提供云端API2. 动态适应性:UI-TARS Desktop为改进型YOLOv9模型(97.3% mAP),GPT-4o 依赖通用目标检测算法

可以看到字节的产品线覆盖较广,多种AI产品均有开发设计,且相较于竞品均有一定的差异性,开创了自己的优势,像 Coze /扣子平台首创的「拖拽式智能体编排」框架,允许用户通过连接预训练模块(如抖音内容审核、飞书日程管理)构建复杂工作流,相较Manus需编写API调用代码的模式,开发效率提升5倍;​​豆包的数学推理等力能虽然比不上GPT,但也构建了「视觉-语音-文本」全链路能力,在通用场景下表现优异。

4.字节下半年产品发布预期表

回顾下字节现有的产品,我们再来看下字节今年接下来又有哪些重要产品值得关注

产品名称​​​​预计发布时间​​​​核心功能与技术特性​​​​战略定位​​
​​AI智能眼镜​​2025年Q2- 整合短视频拍摄、实时翻译、AR导航功能
- 采用高通AR1+恒玄2700芯片组合,支持智能视觉识别(如商品识别、餐厅信息获取)
- 定价499美元,目标用户为Z世代与内容创作者
抢占可穿戴设备市场,探索“视觉+音频”交互场景
​​TARS 2.0 AI Agent​​2025年Q3(预计)- 支持多模态任务处理(浏览器/本地文件/命令行)
- 新增工作流编排功能,开源框架降低开发门槛
- 内部测试中实现测试报告自动下载与解析(成功率95%)
企业级自动化工具升级,对标GPT-4o
​​豆包视频生成模型1.5​​2025年春季- 支持5分钟以上长视频生成
- 集成「光影重构」物理渲染算法
- 抖音电商素材自动生成系统(效率提升5倍)
视频创作工具升级,降低商家内容生产成本90%
​​AI潮玩系列​​2025年上半年- 集成情感大模型的语音交互玩具
- 支持个性化知识库定制(如儿童教育内容)
- 端云协同降低推理成本
切入儿童教育与陪伴市场,构建家庭场景入口

可以看到字节又要开拓​​AI智能眼镜领域,Q2季节发布的​AI智能眼镜​也是对标Meta智能眼镜,但通过字节自研算法优化,预计延迟降低30%;同时又布局AI潮玩系列,构建“感知-交互-服务”闭环,看来是想要进一步构建用户生态,那么是否字节能够达成2025年的AI用户生态构建,我们也将进一步持续关注。

如果喜欢本期内容,欢迎关注我们,后续为你带来更多行业内容和资讯!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值