大模型应用开发-大模型问答项目问答性能评估方法

本文介绍了大模型应用开发中的关键路径,包括从基础到高级的应用,如AI代理工作流和问答项目。详细讨论了四种评估方法:普通评分、ELO评分、选择题精确率度量和大模型度量,以及如何通过这些方法评估模型的性能和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大模型相关目录

大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步,扬帆起航。

  1. 大模型应用向开发路径:AI代理工作流
  2. 大模型应用开发实用开源项目汇总
  3. 大模型问答项目问答性能评估方法


方法1:普通评分

需要数据:
Quetion_data

{“id”: 115, “question”: “请问2021年绿岛风的无形资产值是多少元?”}

Anwser_data

{“id”: 115, “question”: “请问2021年绿岛风的无形资产值是多少元?”, “prompt”:{“ent_short_name”: “绿岛风”, “ent_name”: “广东绿岛风空气系统股份有限公司”, “year”: “2021”, “key_word”: “无形资产”, “无形资产”: “17037624.29元”, “prom_answer”:“17037624.29元”}, “answer”: [“绿岛风2021年的无形资产值是17037624.29元。”, “2021年绿岛风的无形资产为17037624.29元。”, “无形资产值是17037624.29元,属于绿岛风2021年的财务数据。”],“type”: “1”}

Submit_data

{“id”: 115, “question”:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

写代码的中青年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值