Megatron-LM训练GPT2模型

u013250861

已于 2024-02-14 13:15:48 修改

阅读量177

点赞数

分类专栏：图神经网络 # LLM/预训练&SFT 文章标签：人工智能

于 2024-01-15 21:31:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/135611640

版权

LLM/预训练&SFT 同时被 2 个专栏收录

84 篇文章 81 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

图神经网络

39 篇文章 16 订阅 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

本文详细记录了使用Megatron-LM训练GPT2模型过程中遇到的环境配置、数据集准备和模型训练的问题。包括CUDA与torch版本匹配、apex编译错误、数据下载与预处理的TypeError、tokenizer导入问题，以及Distributed训练的模式。通过一系列尝试和解决方案，最终成功进行模型训练。

摘要由CSDN通过智能技术生成

基于Megatron-LM从0到1完成GPT2模型预训练、模型评估及推理 - 知乎 (zhihu.com)

1、配置环境（太遭罪了）

先讲结论，踩坑太漫长了：

GPU：tesla P100

cuda11.8（可换其他，低点好）

pytorch2.1.0（可换其他2.1还是有点小坑）

Megatron-LM（tag2.5），最新的transformer_engine用不了，对GPU框架有要求

pytorch镜像选好版本（别用太高，gpu不行，多踩了很多坑），有apex的就行

首先进入到Megatron-LM目录，安装一下依赖，pip install -r requirements.txt

不需要tensorflow

pytorch和cuda要匹配

安装apex遇到的各种问题&

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Megatron-LM训练GPT2模型

又换了22.10，没有段错误但是，缺少te.pytorch.DotProductAttention！之前一直以为是识别不到megatron里的tokenizer，或者是pip tokenizer的包，弄了好久，结果是根本就是缺少了一个tokenizer.py。将huggingface转换为megatron可用，但是这个卡跑不下7B的，砍了参数，就不适配这个转换好的了。在这里安装apex成功了，但是模型训练使用的时候又报错了！下载镜像，选好版本（别用太高，不适配，多踩了很多坑），有apex的就行。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。