ChatGLM多卡微调踩坑记录

最新推荐文章于 2024-05-17 21:51:35 发布

u013250861

最新推荐文章于 2024-05-17 21:51:35 发布

阅读量648

点赞数

分类专栏： # LLM/预训练&SFT 文章标签：深度学习 python 人工智能

本文链接：https://blog.csdn.net/u013250861/article/details/131262206

版权

LLM/预训练&SFT 专栏收录该内容

84 篇文章 81 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文记录了在使用LoRA微调ChatGLM时遇到的三个主要问题：1) 异常错误'Expected all tensors to be on the same device'; 2) 'ValueError'与模型半精度计算；3) 在模型评估时输入维度不匹配的问题。针对这些问题，作者提供了相应的解决方案，包括检查模型版本、处理数据类型和适配不同版本的peft库。同时，分享了相关的GitHub链接以供参考。

摘要由CSDN通过智能技术生成

题主近期尝试使用LoRA在自有数据上微调ChatGLM，尽管GitHub上已有很多LoRA相关代码，但实现过程中题主还是遇到了很多问题，现将遇到的问题整理出来供大家参考，实现的相关代码也会整理到GitHub.

1. Error: Expected all tensors to be on the same device, but found at least two devices, cuda:1 and cuda:0!

使用deepspeed多卡训练时会遇到这个问题，原因是由于ChatGLM进行了一次更新，使用离线下载的老版模型参数和AutoModel加载的新版配置会发生冲突。

可以通过模型中的config.json文件鉴别下载到本地的ChatGLM是老版还是新版。

老版的ChatGLM的vocab_size为150528:

{
  "_name_or_path": "THUDM/chatglm-6b",
  "architectures": [
    "ChatGLMModel"
  ],
  "auto_map": {
    "AutoConfig": "configuration_chatglm.ChatGLMConfig",
    "AutoModel": "modeling_chatglm.ChatGLMForConditionalGeneration",
    "AutoModelForSeq2SeqLM":

了解本专栏

超级会员免费看

u013250861

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ChatGLM多卡微调踩坑记录

题主近期尝试使用LoRA在自有数据上微调ChatGLM，尽管GitHub上已有很多LoRA相关代码，但实现过程中题主还是遇到了很多问题，现将遇到的问题整理出来供大家参考，实现的相关代码也会整理到GitHub.
复制链接

扫一扫

专栏目录