第十六节 huggingface的trainner的_inner_training_loop函数源码解读(step)

tangjunjun-owen

已于 2024-06-01 21:27:11 修改

阅读量438

点赞数

分类专栏： LLaVA多模态大模型教程文章标签： huggingface traner training_step optimizer.step on_step_end 大模型

于 2024-05-29 22:46:42 首次发布

本文链接：https://blog.csdn.net/weixin_38252409/article/details/139168463

版权

LLaVA多模态大模型教程专栏收录该内容

23 篇文章 5 订阅 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

本篇博客详细解读了Huggingface Trainer的_inner_training_loop函数中的step内循环训练源码，包括内循环前参数、训练step的源码及训练过程中的关键步骤，如模型训练、损失处理、梯度累积、优化器和学习率调度器的更新、权重保存等。通过对源码的深入剖析，有助于理解Trainer在训练大模型时的内部运作机制。

摘要由CSDN通过智能技术生成

文章目录

前言
一、完整源码呈现
- 1、内循环运行前参数
- 2、step内循环训练源码
二、训练step训练源码解读
三、模型训练(self.training_step)
四、self.compute_loss(model, inputs)源码解读(training_step)
总结

前言

在huggingface中，有关trainer内容实在太多了，想完整给出trainer相关内容需要多篇文章来阐明。我想了想，我将布局6篇文章来构建有关内容。第一篇文章介绍TrainingArguments与trainner参数；第二篇文章给出一个完整Demo，并介绍trainner(train与_inner_training_loop)源码的整体结构，呈现一个整体框架；第三篇文章介绍(_inner_training_loop)给出数据构造、优化器构建方法源码解读；第四篇篇文章介绍(_inner_training_loop)中epoch外循环训练相关源码解读；第五篇文章介绍(_inner_training_loop)中step内循环训练相关源码解读；第六篇文章介绍Resume方法内容，包含继承数据、继承优化器、继承模型等实现完整断点续训功能。而本篇为第五篇文章，主要解读huggingface的trainer的_inner_training_loop的step内循环训练相关源码内容。

第一篇文章链接
 第二篇文章链接

了解本专栏

超级会员免费看

tangjunjun-owen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
第十六节 huggingface的trainner的_inner_training_loop函数源码解读(step)

在huggingface中，有关trainer内容实在太多了，我将布局6篇文章来构建有关内容。第一篇文章介绍参数；第二篇文章给出一个完整Demo，并介绍trainner源码的整体结构，呈现一个整体框架；第三篇文章介绍给出数据构造、优化器构建方法源码解读；第四篇篇文章介绍epoch外循环训练相关源码解读；第五篇文章介绍step内循环训练相关源码解读；第六篇文章介绍Resume方法内容，包含继承数据、继承优化器、继承模型等实现完整断点续训功能。而本篇为第五篇文章，主要解读step内循环训练相关源码内容。
复制链接

扫一扫