如何训练专属于自己的大语言模型?

前言

近年来,大型语言模型(LLMs)如OpenAI的GPT-4和Google的PaLM在人工智能领域取得了重大突破。然而,由于技术门槛和成本问题,目前只有少数几家大型科技公司能够训练这些模型。在这样的背景下,Replit公司投入了大量资源,建立了一套从头开始训练自己的大型语言模型的基础设施。在本文中,我们将介绍Replit如何从原始数据开始,经过一系列训练和优化,最终将模型部署到生产环境。我们还将分享在这个过程中所遇到的挑战以及如何利用Databricks、HuggingFace和MosaicML等技术供应商来解决问题。

在这里插入图片描述

为什么自训练LLMs?

Replit的AI团队经常被问到一个问题:“为什么要自训练模型?”实际上,有很多原因驱使公司决定自训练LLMs,包括数据隐私和安全性、对更新和改进的控制等。对于Replit来说,我们主要关注以下三个方面:

  • 定制化:通过自训练模型,我们可以根据特定需求进行调整,包括平台特定功能、术语和上下文。在通用模型中,这些需求可能无法得到满足。例如,我们的模型针对Replit上流行的基于Web的编程语言(如Javascript React(JSX) 和Typescript React(TSX))进行了优化。
  • 减少依赖:虽然我们会根据任务选择合适的模型,但我们认为减少对少数AI提供商的依赖是有益的。这不仅适用于Replit,还适用于更广泛的开发者社区。因此,我们计划开源一些自训练的模型,以便其他开发者也能从中受益。
  • 成本效益:尽管成本持续下降,但对于全球开发者社区来说,LLMs仍然是一笔不小的开销。在Replit,我们的使命是将下一个十亿的软件创作者带到线上。我们相信,无论在印度用手机编程的学生,还是硅谷的专业开发者,都应该能够享受到同样的AI技术。为了实现这一目标,我们训练了定制化模型,这些模型更小、更高效,可以大幅降低成本进行托管。

在这里插入图片描述

数据管道

LLMs的训练需要大量的数据。为了训练这些模型,我们需要构建一个既优化又灵活的数据管道,以便轻松地引入新的公共和专有数据来源。

数据堆栈

我们从Hugging Face上可用的The Stack数据集开始,作为我们的主要数据源。Hugging Face是数据集和预训练模型的重要资源。它们还提供各种有用的工具,包括用于标记化、模型推理和代码评估的工具。

The Stack数据集由BigCode项目提供,包含大约2.7 TB以开放授权方式发布的源代码,涵盖超过350种编程语言。然而,我们的流程中发现这不足够,因为我们需要对数据进行额外控制,并能够以分布式方式处理它。

数据处理

当需要进行更高级的数据处理时,我们使用Databricks来构建我们的管道。这种方法还使我们可以轻松地将其他数据源(例如 Replit 或 Stack Overflow)引入到我们的流程中。

首先,我们下载来自Hugging Face的原始数据,并使用Apache Spark将数据集构建过程在每种编程语言之间并行化。然后,我们重新划分数据,并以优化设置的parquet格式重写出来,供下游处理。

接下来,我们转向清理和预处理我们的数据。这通常包括重复数据和修复各种编码问题,但The Stack已经为我们完成了这些工作。然而,一旦我们开始将Replit数据引入我们的管道,我们将不得不重新运行重复数据删除过程。

使用Databricks的另一个好处是,我们可以在底层数据上运行可扩展和可操作的分析。我们在数据源上运行所有类型的汇总统计,检查长尾分布,并诊断过程中的任何问题或不一致之处。

在这里插入图片描述

标记化和词汇训练

在标记化之前,我们使用我们用于模型训练的相同数据的随机子样本来训练我们自己的自定义词汇表。自定义词汇表使我们的模型能够更好地理解和生成代码内容。这会提高模型性能,并加快模型训练和推理。

一旦我们训练了我们的自定义词汇表,我们就会标记我们的数据。最后,我们构建了我们的训练数据集并将其写成一种分片格式,该格式经过优化以用于模型训练过程。

模型训练

我们使用MosaicML训练我们的模型。在之前部署了我们自己的训练集群后,我们发现 MosaicML 平台为我们提供了一些关键优势。

  • 多个云提供商。Mosaic 使我们能够利用来自不同云提供商的 GPU,而无需设置帐户和所有必需的集成的开销。
  • LLM 训练配置。Composer 库有许多调整良好的配置,用于训练各种模型和不同类型的训练目标。
  • 托管基础设施。他们的托管基础​​架构为我们提供了编排、效率优化和容错(即从节点故障中恢复)。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

有需要得朋友,可以扫描下方二维码免费领取!!】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

  • 17
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值