LangChain学习:如何评估模型

最新推荐文章于 2024-08-21 11:02:00 发布

gz927cool

最新推荐文章于 2024-08-21 11:02:00 发布

阅读量248

点赞数 10

分类专栏：学习笔记文章标签： langchain 学习

本文链接：https://blog.csdn.net/gz927cool/article/details/141370293

版权

学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

langchain 官方文档阅读笔记：Evaluate your LLM application

Create a dataset

验证大模型应用的第一步就是定义用于评估的数据集
为了创建一个数据集合，需要思考3个方面：

每个数据项的schema应该是什么？
应该收集多少数据？
我应该如何搜集这些数据？

这三点都有一个核心原则：

Evaluation is an iterative process.

在这个核心原则下，
无法准确定义Input对应的Ouput没有关系
仅10-50个数据也可以提供大量的价值，随时向数据集添加
可以手动获取10-20数据项就开始评估，然后living constructs

如何构建中提到了真实用户数据(real users)和合成数据(synthetically）

Define metrics

对于问答系统来说，通常不期待应用输出精确的gold答案，而是输出similar答案。
所以评估时候可以使用LLM as judge。
此处的提示词可以参考：

_PROMPT_TEMPLATE = """You are an expert professor specialized in grading students' answers to questions.
You are grading the following question:
{query}
Here is the real answer:
{answer}
You are grading the following predicted answer:
{result}
Respond with CORRECT or INCORRECT:
Grade:
"""

gz927cool

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
LangChain学习:如何评估模型

如何构建中提到了真实用户数据(real users)和合成数据(synthetically）对于问答系统来说，通常不期待应用输出精确的gold答案，而是输出similar答案。可以手动获取10-20数据项就开始评估，然后living constructs。仅10-50个数据也可以提供大量的价值，随时向数据集添加。验证大模型应用的第一步就是定义用于评估的数据集。无法准确定义Input对应的Ouput没有关系。所以评估时候可以使用LLM as judge。
复制链接

扫一扫

专栏目录