LLM:微调大模型的评估

微调了一个垂直大模型,要判断其好坏,怎么做才算科学的?

一、客观测试集评测

训练的时候,就划分了训练集、验证集、测试集,6:3:1.
验证集用于观察有没有过拟合,一般来说是loss;测试集是在训练完成后测试模型的能力,可以自己设置各种指标。

在大模型微调后,使用测试集进行客观评测,一般来说是下面这样:

{
    "predict_bleu-4": 27.806828685897436,
    "predict_rouge-1": 36.388832131410254,
    "predict_rouge-2": 13.097188060897436,
    "predict_rouge-l": 24.604292788461535,
    "predict_runtime": 2245.6039,
    "predict_samples_per_second": 0.553,
    "predict_steps_per_second": 0.035
}

1.BLEU-4

意义:BLEU (Bilingual Evaluation Understudy) 是一种常用的机器翻译质量评价指标。它通过计算生成文本和参考文本之间的 n-gram 精确度来衡量生成文本的质量。BLEU-4 特别关注 4-gram 的匹配情况,可以较好地反映句子的语法和流畅度。
请添加图片描述

2.ROUGE-1

意义:ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 用于评估生成文本和参考文本的覆盖度。ROUGE-1 计算的是 1-gram(即单个词)的召回率,反映了生成文本在多大程度上覆盖了参考文本中的词汇。

请添加图片描述

3.ROUGE-L

请添加图片描述

针对通用的,有很多客观测试集,司南提供了简便的使用,可以参考https://blog.csdn.net/qq_43814415/article/details/138289322

二、主观评测

客观评测虽然能够从指标上评断模型的各项知识、长文本等能力,但是无法贴近真实的场景。很多模型都号称在指标上逼近或超过gpt4,但是实际用下来很差。

主观评测的方式:
两个模型针对同一问题生成回复,人工选择。可以是计算正确率,还有elo分数。

竞技场Elo:利用Bradley-Terry模型,基于历史匿名对战数据估计的大模型竞技场Elo等级分数。
如:https://rank.opencompass.org.cn/leaderboard-arena

请添加图片描述

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灵海之森

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值