大模型应用开发-大模型问答项目问答性能评估方法

写代码的中青年

已于 2024-04-02 14:57:15 修改

阅读量2.2k

点赞数 15

分类专栏：大模型文章标签：人工智能 gpt 大模型

于 2024-03-06 15:29:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43128256/article/details/136507638

版权

本文介绍了大模型应用开发中的关键路径，包括从基础到高级的应用，如AI代理工作流和问答项目。详细讨论了四种评估方法：普通评分、ELO评分、选择题精确率度量和大模型度量，以及如何通过这些方法评估模型的性能和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大模型相关目录

大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容
从0起步，扬帆起航。

大模型应用向开发路径：AI代理工作流
大模型应用开发实用开源项目汇总
大模型问答项目问答性能评估方法

文章目录

大模型相关目录

方法1：普通评分

需要数据：
Quetion_data

{“id”: 115, “question”: “请问2021年绿岛风的无形资产值是多少元?”}

Anwser_data

{“id”: 115, “question”: “请问2021年绿岛风的无形资产值是多少元?”, “prompt”:{“ent_short_name”: “绿岛风”, “ent_name”: “广东绿岛风空气系统股份有限公司”, “year”: “2021”, “key_word”: “无形资产”, “无形资产”: “17037624.29元”, “prom_answer”:“17037624.29元”}, “answer”: [“绿岛风2021年的无形资产值是17037624.29元。”, “2021年绿岛风的无形资产为17037624.29元。”, “无形资产值是17037624.29元，属于绿岛风2021年的财务数据。”],“type”: “1”}

Submit_data

{“id”: 115, “question”:

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

写代码的中青年 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。