大模型sft评估指标方案

大模型sft评估一直都是一个让人头疼的问题,那么如何进行sft评估呢?

一共有两类方案 

第一类:用另一个AI或者人类 对模型答案进行打分

可以是竞技场模式,也可以是离线打分模式

打分可以用一些权威的榜单,例如 superclue

评测流程:

我们采用高级 AI 模型(例如 GPT-4o )来评估不同任务的表现,根据设定的评价标准进行打分( 1-5 分)。
以【长文本】任务为例,设定的评价标准包括:符合基本要求、语言与逻辑连贯性、推理链条完整度。
假设在一个具体的题目中,模型 A 的得分如下:符合基本要求 3 分、语言与逻辑连贯性 4 分、推理链条完整度 5
分。首先,我们计算这一题目的平均得分: 3+4 + 5 = 12,12/3  =4
因此,该题目的具体得分为 4 分。
最后,将所有题目的得分进行归一化处理,以确保满分为 100 分。这样,每个任务的得分都能清晰地反映模型
在不同标准下的表现
问题:
*** 问题背景 ***
清吴淇评谢灵运诗“语多生撰,非注莫解其词,非疏莫通其义”(《选诗定论》卷十
四)。论者也大都指责谢诗雕刻 ......< 由于篇幅有限,此处省略长文内容 >......
*** 问题背景 ***
请根据所提供的文档,提取出有关 谢灵运山水诗 所有相关的信息,并生成一篇 300 字的
中文摘要。摘要应包括以下方面的内容:谢灵运诗风的总体评价及影响以及佛教和老庄
思想对谢诗的影响。
模型回答:
谢灵运的山水诗以其意境阔大悠远、风格恢宏豪放而著称,深得后世如李白、苏轼等人
的推崇。他的诗作在描写山水景色时融入了完整而悠远的时空意识,通过使用朝夕昏旦
等时间词,以及方位词和数量词的频繁使用,拓展了诗歌的意境,使抒发的情感更为深
厚。谢灵运还善于将超越时空甚至超越现实的人物和传说融入诗中,增加了诗的悠远深
厚境界和情感内涵。此外,他好以老庄佛教之理入诗,赋予山水景色以超世的色彩,使
诗歌具有了宏大的艺术效果。谢灵运的山水诗不仅展现了他对自然山水的细密观察和豪
放气势,还体现了他深厚的玄佛思想,这些因素共同作用,使他的诗作在艺术上达到了
恢宏豪宕、深邃厚重的境界。
评价打分:
---- 逐项打分开始 ----
打分与评价开始:
1. 基于标准 1 < 符合基本要求 > AI 助手的回答大体符合用户的要求,提供了谢灵运诗
风的总体评价和影响,以及佛教和老庄思想对谢诗的影响,但略有简略;基于标准 1
得分: 4 分;
2. 基于标准 2 < 语言与逻辑连贯性 > AI 助手的语言表达较为流畅,逻辑较为清晰,内
容结构合理但略显简洁;基于标准 2 的得分: 4 分;
3. 基于标准 3 < 推理链条完整度 > AI 助手对逻辑链条的梳理较为全面,涵盖了大部分
相关信息,但略欠深入;基于标准 3 的得分: 4 分;
综合以上, AI 助手的回答的综合得分(平均分)为 [[4.0]]
---- 逐项打分结束

第二类:用自动化指标进行打分

accuracy:准确率。 acc = count( 模型文本和真实文本一致的个数)/ 样本数

ppl困惑度:衡量模型预测下一个词的能力,常用于语言模型的评估。 用于在能够获取概率的情况下用代码进行计算

BLEU(Bilingual Evaluation Understudy):原来是用于翻译的指标, 现在用于在大模型的 回答和数据集的回答进行对比

ROUGE(Recall-Oriented Understudy for Gisting Evaluation):原来是用于翻译的指标, 现在用于在大模型的 回答和数据集的回答进行对比。

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种用于评估文本摘要质量的指标,主要用于衡量生成的摘要与参考摘要之间的相似度。ROUGE有多种变体,包括ROUGE-1、ROUGE-2和ROUGE-L,它们分别基于n-gram重叠、bigram重叠和最长公共子序列来计算相似度。

Rouge-1

Rouge-2

Rouge-L

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值