本文是LLM系列文章,针对《StarCoder 2 and The Stack v2: The Next Generation》的翻译。
StarCoder 2和The Stack v2:下一代生成
摘要
BigCode项目是一个开放的科学合作项目,专注于负责任地开发大型代码语言模型(Code LLM),引入了StarCoder2。我们与软件遗产(SWH)合作,在其源代码档案的数字公共空间之上构建了The Stack v2。除了涵盖619种编程语言的SWH存储库外,我们还仔细选择了其他高质量的数据源,如GitHu