大模型应用开发-大模型问答项目问答性能评估方法

本文介绍了大模型应用开发中的关键路径,包括从基础到高级的应用,如AI代理工作流和问答项目。详细讨论了四种评估方法:普通评分、ELO评分、选择题精确率度量和大模型度量,以及如何通过这些方法评估模型的性能和准确性。
摘要由CSDN通过智能技术生成

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. 大模型应用向开发路径:AI代理工作流
  2. 大模型应用开发实用开源项目汇总
  3. 大模型问答项目问答性能评估方法


方法1:普通评分

需要数据:
Quetion_data

{“id”: 115, “question”: “请问2021年绿岛风的无形资产值是多少元?”}

Anwser_data

{“id”: 115, “question”: “请问2021年绿岛风的无形资产值是多少元?”, “prompt”:{“ent_short_name”: “绿岛风”, “ent_name”: “广东绿岛风空气系统股份有限公司”, “year”: “2021”, “key_word”: “无形资产”, “无形资产”: “17037624.29元”, “prom_answer”:“17037624.29元”}, “answer”: [“绿岛风2021年的无形资产值是17037624.29元。”, “2021年绿岛风的无形资产为17037624.29元。”, “无形资产值是17037624.29元,属于绿岛风2021年的财务数据。”],“type”: “1”}

Submit_data

{“id”: 115, “question”: “2019年北京星网宇达科技股份有限公司电子信箱是什么?”, “answer”: “”}

评测方法:

看看问题是否有对应答案?

没答案的、答案不唯一:

查看年份是否在问题中 0.25
查看关键字组合是否出现在问题中 0.25
回答和问题的文本相似度 score*0.5

有答案的:

查看年份是否与预设年份一致 0.25
查看关键字组合是否与预设关键字重合 0.25
回答和答案的文本相似度 score*0.5

一共有四类问题
对于每一类问题的分值又有不同权重加权

finalScore = round((Score1 * 0.3 + Score2 * 0.4 + Score3_1 * 0.2 +
Score3_2 * 0.1), 4)

方法2:ELO评分

用一些其他的开源模型、API与我们所涉及的RAG大模型进行问答能力评比
同样采用普通评分,但评分并不直接作用于对大模型及其策略的能力评估上,而是作为elo机制地对比参照起到对比作用。

Elo的想法很简单,比大小。如果我们能用一个分数去评估选手的实力,甲2000分,乙1800分,2000比1800要大,那就说明甲的实力是要强于乙的。
但是,乙也有战胜甲的可能。因为甲可能在某场比赛中发挥失常,只发挥出了1800的水平,而乙发挥超常,达到了2000分的水平,这样乙就战胜了甲。
为了解决这个问题,我们可以不妨认为选手的发挥是服从正态分布的——比如甲服从平均值为2000的正态分布,就是在说他有极大多数时候的发挥水平都在2000附近,也有很低的可能到1800以下或者2200以上。这样,根据正态分布的公式,就能得到选手之间的预期胜率。这个公式本来是个比较难以计算的积分式,但是可以用非常简单的另一个近似公式计算。

比如目前甲是1500分,乙是1600分。我们知道,甲乙对战,明显乙更容易占优势。 现在甲乙进行竞技,根据近似公式,
如果甲胜利了,甲将更新他的elo等级分为1520.5分,而乙的积分将掉到1579.5分,相当于扣除了乙的20.5分给甲。如果乙胜利了,将扣除甲的12分给乙,甲变为1488分,乙变为1612分。
而如果是实力相差悬殊的比赛,甲2000分对阵乙1200分,甲的预期胜率已经极度接近100%,那么他们的elo分不会发生任何变化。

如此,基于模型一样的初始分后,就可以不断进行模型间比较,不断的迭代更新模型得分。

方法3:选择题精确率度量

使用选择题数据集或自身根据已有数据构建问答数据集,通过选择题准确率的度量方式衡量大模型在某些方面的推理能力。

方法4:大模型度量

由于标准答案及大模型答案都属于文本内容,其度量任务完全可交给具备较高性能的大模型进行。

  • 14
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
吴恩达的机器学习系统设计选择题主要包含以下几个方面: 1. 训练集和开发/测试集:选择合适的训练集和开发/测试集对于构建有效的机器学习系统非常重要。我们需要确保训练集和开发/测试集能够代表真实的数据分布,并且在划分数据集时要考虑到数据的随机性和一致性。 2. 性能指标选择:根据具体的问题和需求,选择合适的性能指标来评估机器学习系统的表现。如分类问题可以选择准确率、精确率、召回率等指标,回归问题可以选择均方误差或相关系数等指标。 3. 偏差和方差的平衡:在机器学习系统中,我们通常会面临偏差和方差之间的权衡。通过增加模型的复杂度可以降低偏差,但容易引起方差过高;通过减小模型的复杂度可以减小方差,但容易导致偏差过高。需要根据具体情况选择适当的模型复杂度。 4. 错误分析:在构建机器学习系统时,我们需要进行错误分析来深入了解模型在不同数据集上的表现。通过错误分析,我们可以找出模型存在的问题,并采取相应的措施进行修正和优化。 5. 学习曲线:学习曲线可以帮助我们了解模型的训练过程。通过绘制训练集和开发/测试集的误差随着训练集大小变化的曲线,我们可以判断模型是否出现高偏差或高方差的情况,从而决定是否需要增加更多的训练数据或者调整模型复杂度。 吴恩达强调了以上几个方面的重要性,并提供了相应的选择题帮助我们更好地设计和调整机器学习系统,以获得更好的性能和效果。这些选择题的回答需要结合具体问题和数据情况进行分析和判断,从而做出最合理的决策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

写代码的中青年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值