GitHub发布CodeSearchNet语料库以及挑战赛

GitHub与Weights & Biases合作推出CodeSearchNet语料库和挑战赛,旨在促进用自然语言搜索代码的技术发展。该语料库包含多种编程语言的函数及注释,提供预处理数据和基准模型,以支持模型训练和评估。CodeSearchNet挑战赛通过专业批注评估代码搜索工具的质量,推动程序代码搜索引擎的进步。
摘要由CSDN通过智能技术生成

GitHub释出了CodeSearchNet语料库以及CodeSearchNet挑战赛,以推动用自然语言搜索程序代码的技术发展。CodeSearchNet语料库是一个庞大的程序代码和自然语言批注数据集,让研究人员可以用来训练机器学习模型,并在CodeSearchNet挑战排行榜上竞争模型的精准度。

搜寻程序代码以重复使用、呼叫或是查看其他人撰写程序代码的方式,是开发者的日常之一,但是目前程序代码搜索引擎的表现,与网页搜索引擎还有一大段距离,程序代码搜索引擎还无法良好地理解用户想要搜寻的目标,而GitHub也提到,当他们使用机器学习技术改善程序代码搜寻时,发现目前没有标准来衡量改善结果的进展,不像是自然语言处理有GLUE基准,程序代码搜寻缺乏标准数据集来评估结果。因此GitHub与机器学习新创公司Weights & Biases合作,发布了一个大型的数据集,以帮助数据科学家训练模型,也推出CodeSearchNet挑战赛的评估环境与排行榜,同时还附加了几个用来展示目前技术水准的基准模型。

CodeSearchNet释出的语料库,来自GitHub自家平台的开源项目,他们收集大量以Go、Java、JavaScript、PHP、Python和Ruby程序语言撰写的函式数据集,以及其说明文件,官方使用解析器TreeSitter作为基础架构,并发布了数据预处理工作管线&

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值