LLM预测训练集数据重复、长度超出label

最新推荐文章于 2024-07-07 22:27:26 发布

贰の⑩次方

最新推荐文章于 2024-07-07 22:27:26 发布

阅读量299

点赞数 3

文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/qq_29304033/article/details/136969495

版权

遇到一个场景，拿几条数据用LORA微调了LLM，根据Loss看已经接近了0，但是拿训练集里的数据预测时，不管怎么调节generate的参数，预测结果总是不对，有整段话重复生成的结果，有不重复生成，但是生成的结果超出了label的长度。

经过排查，原因是训练集构造的时候，句子的结束符被attention mask掉了，故模型在计算损失的时候，虽然Loss为0，但是这个loss是只计算了attention mask部分的Loss，下述为错误代码

tokenizer = BloomTokenizerFast.from_pretrained(MODEL_PATH, use_fast=False)
tokenizer.pad_token = tokenizer.eos_token # 这一步代码出问题了
text = text + '\n' + '</s>'
to_regress_tokens = tokenizer(text,
            return_tensors="pt",
            padding="longest",
            truncation=True,
            max_length=160,
            add_special_tokens=False).to(device)


targets = to_regress_tokens.input_ids.masked_fill(
            to_regress_tokens.input_ids == tokenizer.pad_token_id, -100
        ).to(device) # 导致在这里mask的时候， 忽略了 </s> 终止符

贰の⑩次方

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LLM预测训练集数据重复、长度超出label

遇到一个场景，拿几条数据用LORA微调了LLM，根据Loss看已经接近了0，但是拿训练集里的数据预测时，不管怎么调节generate的参数，预测结果总是不对，有整段话重复生成的结果，有不重复生成，但是生成的结果超出了label的长度。经过排查，原因是训练集构造的时候，句子的结束符被attention mask掉了，故模型在计算损失的时候，虽然Loss为0，但是这个loss是只计算了attention mask部分的Loss，下述为错误代码。
复制链接

扫一扫