CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model

516 篇文章 3 订阅

已下架不支持订阅

CodeFuse-13B是一个开源的预训练代码大型语言模型,专为处理多语言代码任务设计,支持40多种编程语言。在中文提示下,它在代码生成、翻译、注释和测试用例生成方面表现出色,已在AntGroup的生产环境中成功部署。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《CodeFuse-13B: A Pretrained Multi-lingual Code Large Language
Model》的翻译。

CodeFuse-13B:一个预训练的多语言代码大型语言模型

摘要

代码大型语言模型(Code LLM)由于其在软件工程的整个生命周期中的广泛应用而在业界引起了极大的关注。然而,现有模型在理解多语言代码相关任务的非英语输入方面的有效性仍远未得到充分研究。本文介绍了CodeFuse-13B,一个开源的预训练代码LLM。它是专门为具有中英文提示的代码相关任务设计的,支持40多种编程语言。CodeFuse通过利用高质量的预训练数据集来实现其有效性,该数据集经过程序分析器的仔细过滤,并在训练过程中进行优化。使用真实世界的使用场景、行业标准基准HumanEval-x和专门为中文提示设计的CodefuseEval进行了广泛的实验。为了评估CodeFuse的有效性,我们积极从AntGroup的软件开发过程中收集有价值的人类反馈,CodeFuse已经成功部署。结果表明CodeFuse-13B实现了HumanEvalpass@1得分37.10%,将其定位为具有相似参数大小的顶级多语言代码LLM之一。在实际场景中,如代码生成、代码翻译、代码注释和测试用例生成,当遇到中文提示时,CodeFuse的性能优于其他模型。

1 引言

2 数据准备

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值