LLM：微调大模型的评估

灵海之森

于 2024-07-31 16:27:16 发布

阅读量547

点赞数 4

分类专栏： LLM 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43814415/article/details/140823902

版权

LLM 专栏收录该内容

40 篇文章 1 订阅

订阅专栏

微调了一个垂直大模型，要判断其好坏，怎么做才算科学的？

一、客观测试集评测

训练的时候，就划分了训练集、验证集、测试集，6:3:1.
验证集用于观察有没有过拟合，一般来说是loss；测试集是在训练完成后测试模型的能力，可以自己设置各种指标。

在大模型微调后，使用测试集进行客观评测，一般来说是下面这样：

{
    "predict_bleu-4": 27.806828685897436,
    "predict_rouge-1": 36.388832131410254,
    "predict_rouge-2": 13.097188060897436,
    "predict_rouge-l": 24.604292788461535,
    "predict_runtime": 2245.6039,
    "predict_samples_per_second": 0.553,
    "predict_steps_per_second": 0.035
}

1.BLEU-4

意义：BLEU (Bilingual Evaluation Understudy) 是一种常用的机器翻译质量评价指标。它通过计算生成文本和参考文本之间的 n-gram 精确度来衡量生成文本的质量。BLEU-4 特别关注 4-gram 的匹配情况，可以较好地反映句子的语法和流畅度。
请添加图片描述

2.ROUGE-1

意义：ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 用于评估生成文本和参考文本的覆盖度。ROUGE-1 计算的是 1-gram（即单个词）的召回率，反映了生成文本在多大程度上覆盖了参考文本中的词汇。

请添加图片描述

3.ROUGE-L

请添加图片描述

针对通用的，有很多客观测试集，司南提供了简便的使用，可以参考https://blog.csdn.net/qq_43814415/article/details/138289322

二、主观评测

客观评测虽然能够从指标上评断模型的各项知识、长文本等能力，但是无法贴近真实的场景。很多模型都号称在指标上逼近或超过gpt4，但是实际用下来很差。

主观评测的方式：
两个模型针对同一问题生成回复，人工选择。可以是计算正确率，还有elo分数。

竞技场Elo：利用Bradley-Terry模型，基于历史匿名对战数据估计的大模型竞技场Elo等级分数。
如：https://rank.opencompass.org.cn/leaderboard-arena

请添加图片描述

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
LLM：微调大模型的评估

微调了一个垂直大模型，要判断其好坏，怎么做才算科学的？
复制链接

扫一扫

专栏目录

灵海之森 CSDN认证博客专家 CSDN认证企业博客

码龄6年

175: 原创

2026: 周排名

8175: 总排名

24万+: 访问

: 等级

3642: 积分

3101: 粉丝

1499: 获赞

139: 评论

2213: 收藏

私信

关注

热门文章

分类专栏

笔试
RAG 1篇
linux 3篇
LLM 40篇
算法 34篇
NLP八股文 1篇
MM-LLM 10篇
datawhale力扣 28篇
机器学习 1篇
Python基础知识 21篇
pytorch报错记录 3篇
搜索引擎 2篇
milvus数据库 11篇
SQL碎碎念 11篇
CV 1篇
爬虫 8篇
情感分析 4篇
知网

最新评论

背包问题题解概述
灵海之森: https://kamacoder.com/problempage.php?pid=1052 完全背包 [code=python] import sys input = sys.stdin.read() data = input.split() m,n = int(data[0]), int(data[1]) weights = [] values = [] index = 2 for i in range(m): weights.append(int(data[index])) values.append(int(data[index+1])) index += 2 print(weights) print(values) # 动态规划 dp = [0] * (n+1) for i in range(m): for j in range(weights[i], n+1): dp[j] = max(dp[j], dp[j-weights[i]]+values[i]) print(dp[n]) [/code]
RAG查询改写方法概述
灵海之森: 那是LLM处理的速度慢吧
RAG查询改写方法概述
Flink_: 如果不用这个的话，还可以用别的改写吗，改写下来整个流程慢，因为我现在就用的调用LLM接口的方式
llama_index微调BGE模型
Wp_Fang: 项目中的requirements.txt可以给出吗，在github上没有找到
LDA主题模型的原理及使用教程
weixin_66491105: 请问一下，是不是创建词典和corpus并在此基础上创建lda模型，就相当于对lda模型进行训练和调参了？

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

灵海之森 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。