Llama-3.1 70B全量训练！OpenBuddy发布新一代70B中文跨语言模型

本文链接：https://blog.csdn.net/m0_59164520/article/details/142830614

本次发布的是我们在Llama3.1基座上的最新成果：openbuddy-llama3.1-70b-v22.3-131k。

得益于训练数据的增强及蒸馏数据的应用，和上一代70B模型相比，Llama3.1 70B在多种细分任务上均取得了更加优秀的表现，尤其是在GPQA等较为困难的任务上，Llama3.1 70B模型具备明显优势。

然而，Llama3.1 70B本身在中文理解与生成方面表现不佳：模型倾向于输出英文，并且在较难的中文问题上表现出中文理解力和知识储备的欠缺。

为了增强Llama3.1 70B模型的深度中文理解能力和中文知识储备，我们采用了对70B全量跨语言微调的方式。现有的主流框架上，70B模型的全量训练需要巨量显存，即使是开启了ZeRO-3优化，通常至少需要数十张卡的多机互联环境，且难以支持长文。

出于高效利用资源的考虑，我们近期探索了使用少量资源，进行70B模型的高效全量训练的可行性。基于Pytorch的FSDP分布式训练框架，我们开发出了新一代模型训练方案，在多个方面具备优势：

显著提升VRAM效率、8卡即可全量训练70B模型。通过集成来自开源社区的各类Triton算子实现，以及优化器的CPU Offload技术，全量训练所需的VRAM显著降低。理想情况下，单机8卡即可全量训练70B模型。
支持长文训练。为了保持模型基座的长文能力，在训练过程中使用长文数据十分重要。新一代训练方案在单机环境下支持70B模型的20K长文训练。
训练速度进一步提升。在单机环境，70B模型训练效率可以优化至数千Tokens每秒，足以应对中小规模的训练。

在开发此方案的过程中，我们完整地实现了整个Training loop，而非使用huggingface trainer等现有的训练器，这种设计能够允许我们精调训练过程中的诸多细节。

本次发布的模型即为我们基于新的训练方案的首个模型，测试结果表明，模型在中文上具备稳定的理解能力，并在一些困难任务上，尤其是复杂编码任务上，具备更为优秀的表现。

在本次训练过程中，我们插入了一部分文言文语料，模型的理解、生成文言文能力也取得了一定的进步。

Q: 用文言文写个故事，关于一头算不清房贷利率的狮子

A: 昔有狮子，名曰智者，居于山林之中。其性聪明，能言人语，闻人间有所谓“房贷”之事，乃是人为居所而向他人借金，日后以利相偿。智者心生好奇，遂下山，欲探其究竟。

智者至城，见有银行，乃入其中，向银行之人询问房贷之事。银行之人曰：“吾等可借金予汝，以助汝购居所，然汝须按期偿还本金，并加利息。”智者曰：“利息之数，如何计算？”银行之人曰：“此乃复杂之事，需依据年利率、贷款期限等多种因素而定。”

智者听后，心生疑惑，曰：“年利率之数，如何得知？”银行之人曰：“此乃市场之变动所致，非一成不变。”智者曰：“若是，吾如何能算清利息之数？”银行之人曰：“此乃吾等之职责，汝但需按期偿还即可。”

智者听后，心生不满，曰：“吾为何要借金于汝，而不能自知利息之数？”银行之人曰：“此乃银行之规矩，汝若不愿，亦可不借。”智者曰：“吾欲借金，亦欲知利息之数，否则，吾宁愿不借。”

智者言毕，乃离开银行，回归山林。自此，智者不再提及房贷之事，专心于山林之中，过着简单而快乐的生活。

后人传说，智者之所以不愿借金，乃因其聪明之性，知晓利息之数乃是复杂之事，非一朝一夕所能算清。智者之行为，亦为后人所称赞，乃是智者之明智所在。

点击“阅读原文”，即可在魔搭社区中下载我们的新版模型。在发布本版模型时，我们在评测集中加入了一些较为困难的编程问题，可以直接点击"Evaluation.txt"查看模型在这些问题上的输出结果。

同时，我们也推出了新版的8B模型：openbuddy-llama3.1-8b-v22.3-131k，此模型在之前发布的版本的基础上，使用了大量中文语料进行追加预训练，和上一个版本相比提升了中文能力和稳定性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述