FullStack Bench：字节豆包联合M-A-P社区开源的全新代码评估基准

蚝油菜花

已于 2024-12-08 21:46:19 修改

阅读量1k

点赞数 5

分类专栏：每日 AI 项目与应用实例文章标签：人工智能开源

于 2024-12-08 21:46:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19841021/article/details/144332857

版权

每日 AI 项目与应用实例专栏收录该内容

659 篇文章

订阅专栏

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

全面评估：FullStack Bench能评估大型语言模型在多种真实编程场景下的能力，包括基础编程、数据科学、机器学习等多个领域。
多语言支持：覆盖16种广泛使用的编程语言，让评估结果更具普遍性和实用性。
实际应用场景模拟：基于从Stack Overflow等社区抽取问题，模拟真实世界编程问题，确保评估的相关性和实际应用价值。

正文（附运行示例）

FullStack Bench 是什么

公众号: 蚝油菜花 - FullStackBench

FullStack Bench是由字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准，专注于全栈编程和多语言编程能力评估。该基准覆盖超过11种真实编程场景，包含3374个问题，涉及16种编程语言，旨在更有效地衡量大模型在现实世界中的代码开发能力。

FullStack Bench基于模拟真实编程应用领域，提供一个全面、多领域的评估平台，有助于推动代码智能技术的进步。

FullStack Bench 的主要功能

全面评估：能评估大型语言模型（LLMs）在多种真实编程场景下的能力，包括基础编程、数据科学、机器学习等多个领域。
多语言支持：覆盖16种广泛使用的编程语言，让评估结果更具普遍性和实用性。
实际应用场景模拟：基于从Stack Overflow等社区抽取问题，模拟真实世界编程问题，确保评估的相关性和实际应用价值。
代码质量控制：每个问题都包括题目描述、参考解决方案和单元测试用例，确保评估的准确性和可靠性。

FullStack Bench 的技术原理

数据集构建：分析Stack Overflow等技术社区的问题分布，提炼出常见的真实编程应用领域，构建包含多个问题的数据集。
人工注释与验证：基于人工注释和验证流程，确保每个问题的质量，包括问题描述的准确性和参考解决方案的正确性。
单元测试用例：为每个问题设计单元测试用例，用自动化的方式验证模型生成的代码是否符合预期。
多语言编程能力评估：基于设计真实世界的指令和相应的单元测试用例，评估模型在不同编程语言下的表现。
沙盒执行环境：用SandboxFusion沙盒执行工具，支持多种编程语言和包，为代码执行提供安全和隔离的环境。

如何运行 FullStack Bench

首先，启动沙盒服务器：

docker run -d --rm -p 8080:8080 volcengine/sandbox-fusion:server-20241204

对于中国大陆用户，可以使用以下镜像：

docker run -d --rm -p 8080:8080 vemlp-cn-beijing.cr.volces.com/preset-images/code-sandbox:server-20241204

然后，运行基准测试：

git clone https://github.com/bytedance/FullStackBench.git
cd FullStackBench
pip install -r requirements.txt
# 修改src/main.py中的模型配置
python src/main.py

资源

项目官网：https://github.com/bytedance/FullStackBench
GitHub 仓库：https://github.com/bytedance/FullStackBench
HuggingFace 模型库：https://huggingface.co/datasets/ByteDance/FullStackBench
arXiv 技术论文：https://arxiv.org/pdf/2412.00535
SandboxFusion 教程：https://bytedance.github.io/SandboxFusion/

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。