前言
近年来,大型语言模型(LLMs)如OpenAI的GPT-4和Google的PaLM在人工智能领域取得了重大突破。然而,由于技术门槛和成本问题,目前只有少数几家大型科技公司能够训练这些模型。在这样的背景下,Replit公司投入了大量资源,建立了一套从头开始训练自己的大型语言模型的基础设施。在本文中,我们将介绍Replit如何从原始数据开始,经过一系列训练和优化,最终将模型部署到生产环境。我们还将分享在这个过程中所遇到的挑战以及如何利用Databricks、HuggingFace和MosaicML等技术供应商来解决问题。
为什么自训练LLMs?
Replit的AI团队经常被问到一个问题:“为什么要自训练模型?”实际上,有很多原因驱使公司决定自训练LLMs,包括数据隐私和安全性、对更新和改进的控制等。对于Replit来说,我们主要关注以下三个方面:
- 定制化:通过自训练模型,我们可以根据特定需求进行调整,包括平台特定功能、术语和上下文。在通用模型中,这些需求可能无法得到满足。例如,我们的模型针对Replit上流行的基于Web的编程语言(如Javascript React(JSX) 和Typescript React(TSX))进行了优化。
- 减少依赖:虽然我们会根据任务选择合适的模型,但我们认为减少对少数AI提供商的依赖是有益的。这不仅适用于Replit,还适用于更广泛的开发者社区。因此,我们计划开源一些自训练的模型,以便其他开发者也能从中受益。
- 成本效益:尽管成本持续下降,但对于全球开发者社区来说,LLMs仍然是一笔不小的开销。在Replit,我们的使命是将下一个十亿的软件创作者带到线上。我们相信,无论在印度用手机编程的学生,还