你的大模型应用表现真的好吗?借助 Dify + Langfuse 一探究竟

背景介绍

众所周知,大模型应用的输出存在着一些不确定性,往往需要迭代多轮才能得到较为稳定的输出结果,因此开发者往往需要关注大模型应用的实际表现,并进行有针对性的优化。

然而常规 Web 服务的监控机制往往无法满足大模型应用的监控需求,因为大模型应用往往关注的不仅仅是响应延迟、吞吐量等基础指标,而是需要关注大模型应用输出的语义正确性。因此,本文将介绍如何借助 Dify 和 Langfuse 工具,展示如何为大模型应用必要监控,方便进行有定向优化。

基础介绍

Dify

Dify 是一款热门的开源 LLMOps 服务,作为一个大模型应用的基础设施,可以帮助开发者快速构建 LLM 应用。关于 Dify 的介绍之前整理过很多,比如 大模型应用基础服务 Dify 深度解读, 感兴趣的可以去了解下,这边就不再深入展开了。

Langfuse

Langfuse 是一款开源的大模型应用监控服务,可以为大模型应用提供监控能力。比如面对 Dify 复杂的任务流,可以借助 Langfuse 跟踪各个基础环节输出的结果,方便深入定位问题。

除了常规的内容搜集与展示外,Langfuse 还有两个值得重点关注的能力:

  1. LLM 评估,可以借助大模型评估现有业务输出的内容,充当 LLM-as-a-Judge 角色。考虑到大模型应用输出的都是大量的文本内容,常规的评估方式往往无法满足需求,因此借助 LLM 评估可以更精准快速地评估输出内容(这个功能目前 Langfuse 还处于实验阶段,私有化部署暂时还不支持,预计后续会很快上线);
  2. 数据集管理,数据集管理可以帮助我们通过批量标准手段快速测试大模型应用,在进行大模型应用优化时,可以借助数据集快速测试优化后的效果,避免负优化;

Dify 官方目前直接支持的监控方案为 LangSmith 和 Langfuse。 LangSmith 功能更强,但是需要付费,而且没有提供私有化部署的能力,因此 Langfuse 算是一个开源的经济方案。

部署与集成

服务部署

Dify 和 Langfuse 都提供了多种部署方案,常规情况下,如果希望进行私有化部署,基于 docker compose 的方案是最省心的。

Dify 的部署流程可以参考 Dify Docker Compose 部署

Langfuse 的部署流程可以参考 Langfuse Docker Compose 部署

服务集成

Dify 官方提供了对 Langfuse 的支持,因此可以在 Dify 应用中通过配置 Langfuse 地址,public key, secret key 信息,就可以快速集成 Langfuse 服务。

请添加图片描述

详细的服务集成的流程可以参考 Dify 官方文档中 Langfuse 集成

服务集成之后,在 Dify 应用中进行正常使用,就可以跟踪输出结果与应用中间环节的输出了,实际测试跟踪效果如下所示:

请添加图片描述

上图是一个 RAG 应用,可以看到 Langfuse 除了可以跟踪最终输出,右侧也可以看到中间知识检索的结果,方便深入定位各个环节中的问题。

数据集与自动化评估

在大模型应用的持续迭代中,为了验证迭代效果,往往会构建一个标准的自动化测试数据集 (Dataset)。基于标准的数据集与大模型自动化评估手段,可以快速直观看到优化后的效果差异。除此之外,Langfuse 也支持根据线上跟踪的情况动态新增数据集,比如可以将之前表现不佳的用户问题动态加入数据集,方便进行有针对性的优化:

请添加图片描述

数据集的构建

Langfuse 提供了 sdk 帮助快速构建数据集,构建数据集主要包含创建数据集,添加测试项。

创建测试集可以直接调用 create_dataset 方法:

langfuse.create_dataset(
    name="<dataset_name>",
为了在Windows上安装ADB工具,你可以按照以下步骤进行操作: 1. 首先,下载ADB工具包并解压缩到你自定义的安装目录。你可以选择将其解压缩到任何你喜欢的位置。 2. 打开运行窗口,可以通过按下Win+R键来快速打开。在运行窗口中输入"sysdm.cpl"并按下回车键。 3. 在系统属性窗口中,选择"高级"选项卡,然后点击"环境变量"按钮。 4. 在环境变量窗口中,选择"系统变量"部分,并找到名为"Path"的变量。点击"编辑"按钮。 5. 在编辑环境变量窗口中,点击"新建"按钮,并将ADB工具的安装路径添加到新建的路径中。确保路径正确无误后,点击"确定"按钮。 6. 返回到桌面,打开命令提示符窗口。你可以通过按下Win+R键,然后输入"cmd"并按下回车键来快速打开命令提示符窗口。 7. 在命令提示符窗口中,输入"adb version"命令来验证ADB工具是否成功安装。如果显示版本信息,则表示安装成功。 这样,你就成功在Windows上安装了ADB工具。你可以使用ADB工具来执行各种操作,如枚举设备、进入/退出ADB终端、文件传输、运行命令、查看系统日志等。具体的操作方法可以参考ADB工具的官方文档或其他相关教程。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* [windows环境安装adb驱动](https://blog.csdn.net/zx54633089/article/details/128533343)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [Windows下安装使用ADB,简单易懂教程](https://blog.csdn.net/m0_37777700/article/details/129836351)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

易迟

高质量内容创作不易,支持下

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值