Lora微调Yi-6B第一个step后loss突变为0

最新推荐文章于 2025-02-13 17:10:53 发布

溢溢生辉※

最新推荐文章于 2025-02-13 17:10:53 发布

阅读量1k

点赞数 9

文章标签： python 人工智能深度学习

本文链接：https://blog.csdn.net/2303_79373719/article/details/140251029

版权

在微调大语言模型的时候，loss是我们判断模型训练效果的一大重要指标。loss通常代表着模型效果和预期结果之间的差距，当这个差距收敛或者变化不大时，我们认为模型训练停止，此时通过validation来寻找最佳的模型超参。

而loss为0通常是被认为是异常情况，因为在大语言模型的训练中，loss的计算是每一个token位置对下一个token的预测值和预期值的交叉熵函数。哪怕在一个样本中，模型的输出和训练集的结果完全一致几乎不可能。所以被判定为异常情况。

两个解决办法：

1. 查看label的设置，通常在dataloader的data_collator参数中会有涉及，将label设为-100的地方去掉（这里说的是自己设置的-100，hugging face中的函数会将特殊token mask掉，这个不用去掉）

2. 将lora config中的参数load_in_4bit设置为True

下面分析可能的原因:

第一种是我们在mask label的过程中，设置错误。这里需要解释的是，什么是mask label。微调大模型时，训练集的形式是（prompt，responce）。由于模型学习的是回答问题，不需要去拟合问题的语言，所以我们只计算responce部分的loss，而不计算prompt的部分的loss。于是，在设置label的时候，我们会将prompt部分的label设置为-100（交叉熵规定对于

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

溢溢生辉※

关注关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LORA微调GLM-4问题

weixin_38040996的博客

08-19

407

这是为啥吖，求助！

深度学习中Loss突然变为0的解决方法

Alden He

02-17

1万+

在深度学习中，在网络模型，优化器，损失函数均正确的情况下，可能在训练过程中会发生loss为nan的情况，这种情况下可能的一种原因是输入数据存在nan的情况，如果在数据量很多的情况下，可以通过以下方法来修正假设我们读取的array为a import numpy as np def read(): arr=np.array([[1,2,3],[4,5,nan]]) whereisnan=np.i...

参与评论您还未登录，请先登录后发表或查看评论

【bug解决】Lora微调chatglm6b出现step10后loss持续为0

qq_41502855的博客

04-07

1044

lora微调过程中出现loss持续为0。

深度学习loss值变为0_Tensorflow2.0深度学习代码示例及注释（一）

weixin_39777404的博客

11-21

325

import tensorflow as tfimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom tensorflow import kerasfrom tensorflow.keras import datasets from mpl_toolkits.mplo...

(附数据集)基于lora参数微调Qwen1.8chat模型的实战教程

小知的博客

03-16

4431

与全参数微调不同，LoRA和Q-LoRA的训练只需存储adapter部分的参数。使用LoRA训练后的模型，可以选择先合并并存储模型（LoRA支持合并，Q-LoRA不支持），再用常规方式读取你的新模型。一般会缓存到你的C盘或用户空间，所以要根据自己情况查看模型。也可以通过下面日志查看模型所在位置，如。使用微调后且合并的模型进行本地部署。阿里魔搭社区notebook的。觉得不错，点个star噢。里：下载模型会缓存在。克隆Qwen项目，调用。文件进行配置与微调。

针对 Yi 6B 和 34B 进行微调代码 + lora微调 llama factory

强化学习曾小健

06-28

1039

对于 Yi-34B 模型，由于使用零卸载技术会占用大量 CPU 内存，请注意限制 34B 微调训练中的 GPU 数量。用于微调 34B 模型的典型硬件设置是一个具有 8GPUS 的节点（通过 CUDA_VISIBLE_DEVICES=0,1,2,3 限制运行时为 4 个），每个 GPU 内存大于 80GB，总 CPU 内存大于 900GB。对于Yi-6B基础模型，设置training_debug_steps=20和num_train_epochs=4可以输出聊天模型，大概需要20分钟。

大模型微调踩坑个人记录：

qq_50502754的博客

01-19

1208

解决方法：bitsandbytes 只支持linux，windows下版本过低不支持。2.问题：lora微调chatglm loss为0。peft版本改为0.6.0后问题解决。改到linux服务器下运行，成功。

训练的LOSS一直为0

qq_34661230的博客

03-07

3万+

http://www.cnblogs.com/sddai/p/8526955.html TensorFlow训练神经网络cost一直为0 问题描述这几天在用TensorFlow搭建一个神经网络来做一个binary classifier，搭建一个典型的神经网络的基本思路是：定义神经网络的layers(层)以及初始化每一层的参数然后迭代：前向传播（Forward propagation）计...

FPN+Faster_Rcnn调试，fast_rcnn_location_loss一直为0？

qq_32689925的博客

03-04

956

如题，调试FPN+fastrcnn源码，tensorflow版本，过程中fast-rcnn_location_loss，一直为0。经过分析，初始过程，rpn网络推荐的box在fast rcnn阶段跟gtbox对比时没有positive样本，这时候，rcnn_location_loss为0是合理的。但网络训练一直进行，无论怎么调整，依然一直为0，就难以理解来。无奈之中，一步步调试，取出fast-r...

SFT训练时，损失LOSS一直为0的问题解决方案

最新发布

lin_c_lin的博客

02-13

674

分词器处理文本时，可能会根据文本上下文生成不同token ID，当文本中包含更多单词时，分词器可能产生不同token id，这导致在预处理数据时，响应模板中的token id与实际数据中的不匹配，从而导致模型无法正确识别响应部分。在NLP任务尤其是生成式任务中，通常会有一个响应模板，用于标记模型的输出部分，这个模板用于知识模型生成的答案部分。确保在预处理数据时，响应模板的token id与实际数据中的token id一致。默认为True的话，就会在里面有一些< SEP>什么的，导致识别失败。

LLaVA finetune.sh中loss一直为0的问题解决记录

m0_56711618的博客

01-15

415

使用finetune.sh做微调遇到loss经过两三条后一直保持0的情况,{'loss': 0.0, 'learning_rate': 2.631578947368421e-06, 'epoch': 0.0}

大模型训练时遇到的一些异常情况处理记录

老李的人工智能和大数据之路

12-10

550

大模型训练时候遇到的一些异常处理记录说明，持续更新。

Lora模型训练的参数-学习笔记

weixin_50348308的博客

07-17

4147

刚做完正则化训练的课，有个很惊奇的发现，之后有时间了，再抽空去梳理吧。

损失函数

wang735019的专栏

01-13

5536

损失函数当在训练神经网络模型的时候，特别是一些线性分类器，往往需要定义一个损失函数L(yˆ,y)L(\widehat{y},y) ，函数用来表征模型的预测yˆ\widehat{y} 与真实的输出yy 之间的损失，而模型的训练就是要通过样本将损失函数最小化。可以说损失函数就是一个评分函数，用以对模型预测准确性进行打分，所以损失函数没有负值，当函数值为0时，说明模型预测与真实值完全相符。原则上是可以使用

Lora微调训练参数解读

golfxiao的专栏

08-27

5146

通过前面两次微调训练欺诈文本分类微调（六）：Lora单卡和欺诈文本分类微调（七）—— lora单卡二次调优，我们已经初步理解了微调的整个过程，里面涉及到不少的参数配置，这篇文章就对前面用到过的参数作一个基本的梳理和总结。

赛博炼丹师手记

0 error(s)

04-06

4297

本文提供了详细的炼丹（训练AI模型）指南，主要针对的是使用Lora模型进行个性化定制。文章首先介绍了丹炉（训练工具）的选择和下载方式，然后详细阐述了炼丹手法，包括前置准备、数据标注、开始炼丹和结果验收等步骤。在炼丹心法部分，作者深入讲解了炼丹过程中的一些重要参数，如步数、效率和质量相关参数，这些参数的设置会直接影响到模型的训练效果。最后，作者还提供了一些相关的参考文献，以供读者进一步学习和探索。

我们真的需要把训练集的损失降到零吗？

mathor的博客

12-01

3838

在训练模型的时候，我们需要将损失函数一直训练到0吗？显然不用。一般来说，我们是用训练集来训练模型，但希望的是验证机的损失越小越好，而正常来说训练集的损失降到一定值后，验证集的损失就会开始上升，因此没必要把训练集的损失降低到0既然如此，在已经达到了某个阈值之后，我们可不可以做点别的事情来提升模型性能呢？ICML2020的论文回答了这个问题，不过实际上它并没有很好的描述"为什么"，而只是提出了"怎么做"

Stable Diffusion Lora模型训练详细教程