参考:https://github.com/datawhalechina/llm-universe/tree/main/notebook/C5%20%E7%B3%BB%E7%BB%9F%E8%AF%84%E4%BC%B0%E4%B8%8E%E4%BC%98%E5%8C%96
大模型评估
找到 Bad Cases,并不断针对性优化 Prompt 或检索架构来解决 Bad Cases,从而优化系统的表现。我们会将找到的每一个 Bad Case 都加入到我们的验证集中,每一次优化之后,我们会重新对验证集中所有验证案例进行验证,从而保证优化后的 系统不会在原有 Good Case 上失去能力或表现降级。当验证集体量较小时,可以人工评估;当验证集随着系统的优化而不断扩张,需要采用自动评估的方法。
评估生成部分,优化Prompt Engineering
- 提升直观回答质量
- 标明知识来源,提高可信度
- 构造思维链
- 增加一个指令解析
评估并优化检索部分
生成的前提是检索,只有当我们应用的检索部分能够根据用户 query 检索到正确的答案文档时,大模型的生成结果才可能是正确的。因此,检索部分的检索精确率和召回率其实更大程度影响了应用的整体性能。常见的 Bad Case 归因:
- 知识片段被割裂导致答案丢失
- query 提问需要长上下文概括回答
- 关键词误导
- 匹配关系不合理