第十三章:huggingface的resume训练源码内容

文章目录


前言

大模型基本使用huggingface来实现。对于不太理解其内容基本按照官网教程或相关博客等来实现。想进一步激发开源大模型在行业领域提升性能是棘手问题。该问题会涉及开源代码二次开发进行实验测试。基于此,本教程不同文字或理论介绍内容,而从源码解读其训练逻辑、权重保存、高效微调方法(LoRA)、断点续训方法、模型推理权重处理等方法。本教程所有内容完全依托huggingface源码与相关Demo验证来解读,助力大模型使用。

本篇文章基于上篇文章Demo解读相关resume源码内容,特别是权重等相关内容加载。


一、Resume训练源码解读(Trainer->train方法)

依然使用trainer.train函数内容,但我这次直解读与resume相关内容,其它在前面文章已有解读。

1、resume_from_checkpoint设定

仍然进入train函数,可知不给参数resume_from_checkpoint是默认为None,或给参数resume_from_checkpoint=False则通过下面转成None。

其代码如下:

def train(
        self,
        resume_from_chec
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
"error:--resume checkpoint does not exist"表示在程序运行过程中出现了错误,提示指定的checkpoint(检查点)不存在。 checkpoint是一种保存程序运行状态的机制,在许多应用中可用于保存模型参数、中间结果等。当程序需要恢复之前的运行状态时,可以使用checkpoint来实现。然而,如果指定的checkpoint不存在,程序就无法正确地恢复之前的状态,会出现错误。 出现这个错误的原因可能有以下几种: 1. 指定的checkpoint路径不正确:可能是路径被拼写错误或者路径不存在。需要仔细检查输入的路径是否正确,并确认路径下是否存在指定的checkpoint文件。 2. checkpoint文件被删除或移动:如果在程序运行期间手动删除或移动了checkpoint文件,那么程序就无法找到指定的checkpoint。此时,可以尝试找回或重新生成checkpoint文件。 3. 程序中指定的checkpoint名称与实际的名称不一致:可能是程序中指定的checkpoint名称与实际生成的名称不符合。需要确保指定的checkpoint名称正确。 针对这个错误,可以采取以下一些解决措施: 1. 检查路径和文件名:仔细检查checkpoint路径和文件名是否正确,并确保路径下存在指定的checkpoint文件。 2. 恢复或重新生成checkpoint文件:如果checkpoint文件被删除或移动,可以尝试找回原有的checkpoint文件或重新生成checkpoint文件。 3. 确认指定的checkpoint名称是否正确:确保程序中指定的checkpoint名称与实际生成的名称一致。 总之,出现"error:--resume checkpoint does not exist"错误说明在程序运行过程中找不到指定的checkpoint文件。通过仔细检查路径、文件名和名称的正确性,并采取相应的恢复或重新生成措施,可以解决这个问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tangjunjun-owen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值