开箱即用的大模型应用跟踪与批量测试方案

最新推荐文章于 2025-04-13 01:12:20 发布

易迟

最新推荐文章于 2025-04-13 01:12:20 发布

阅读量1.1k

点赞数 26

分类专栏：人工智能文章标签： RAG Agent 大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hustyichi/article/details/142600012

版权

背景介绍

最近抽空参加了一个讯飞的 RAG 比赛，耗时两周终于在最后一天冲上了榜首。
请添加图片描述

整体的框架是基于 RAG 能力有点弱弱的 Dify 实现。在比赛调优的过程中，经常需要批量提交几百个问题至 Dify 获取回答，并需要跟踪多轮调优的效果差异。借助 Langfuse 可以通过网页跟踪结果，相对比较方便了很多。但是现有版本的 Langfuse 不支持提交文件构建数据集，私有化部署的版本也不支持自动化评估，多版本的比较很麻烦。

在比赛期间断断续续实现了一些自动化脚本进行辅助，比赛结束后感觉确实很实用，因此就有了这个项目 Dify-Eval, 一款补全 Dify + Langfuse 组合短板的自动化工具。目前具备如下所示的功能：

一键上传本地文件至 Langfuse 构建数据集;
基于 Langfuse 数据集批量至 Dify，并关联原始数据集；
全自动大模型评分，多维度，可拓展；
多版本评分比较，可视化查看效果提升；

请添加图片描述

从我自己的使用体

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

易迟 高质量内容创作不易，支持下

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。