大模型评估与优化

最新推荐文章于 2024-10-12 12:26:23 发布

李鸿章鱼哥

最新推荐文章于 2024-10-12 12:26:23 发布

阅读量408

点赞数 8

文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jfq1211/article/details/138293638

版权

参考：https://github.com/datawhalechina/llm-universe/tree/main/notebook/C5%20%E7%B3%BB%E7%BB%9F%E8%AF%84%E4%BC%B0%E4%B8%8E%E4%BC%98%E5%8C%96

大模型评估

找到 Bad Cases，并不断针对性优化 Prompt 或检索架构来解决 Bad Cases，从而优化系统的表现。我们会将找到的每一个 Bad Case 都加入到我们的验证集中，每一次优化之后，我们会重新对验证集中所有验证案例进行验证，从而保证优化后的系统不会在原有 Good Case 上失去能力或表现降级。当验证集体量较小时，可以人工评估；当验证集随着系统的优化而不断扩张，需要采用自动评估的方法。

评估生成部分，优化Prompt Engineering

提升直观回答质量
标明知识来源，提高可信度
构造思维链
增加一个指令解析

评估并优化检索部分

生成的前提是检索，只有当我们应用的检索部分能够根据用户 query 检索到正确的答案文档时，大模型的生成结果才可能是正确的。因此，检索部分的检索精确率和召回率其实更大程度影响了应用的整体性能。常见的 Bad Case 归因：

知识片段被割裂导致答案丢失
query 提问需要长上下文概括回答
关键词误导
匹配关系不合理

李鸿章鱼哥

关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。