【浪】LangSmith是否可替代？Langfuse VS Langsmith

AI技术老狗（QA）

已于 2024-10-25 12:10:18 修改

阅读量2.7k

点赞数 27

文章标签： 1024程序员节

于 2024-10-25 09:08:13 首次发布

本文链接：https://blog.csdn.net/longxiaotian718/article/details/143213202

版权

可观测性范围图

随着生成式 AI 概念的火爆，以 ChatGPT 为代表，市场上涌现了一系列商用或者开源的大模型，同时基于大语言模型以及 AI 生态技术栈构建的应用以及业务场景也越来越多，大规模的模型训练以及模型推理场景也催生了 MLOps、LLMOps 等相关的岗位需求。

如何监控并保障大模型应用上线的性能以及用户体验？如何支持复杂拓扑场景下 LLM 应用领域的链路可视化分析以及根因定位？

需要从成本以及效果等方面获得线上实际效果表现，辅助分析、评估以及优化迭代大语言模型等。基于上述需求以及问题背景，面向 LLM 应用技术栈的可观测能力解决方案也成为了日益重要的话题。

为什么需要 LLM 应用可观测

TruEra 的研究数据揭示，尽管 2023 年被视为构建大规模语言模型（LLM）应用原型的繁荣时期，但实际转化成生产环境部署的比例依旧偏低。历史数据分析指出，仅约 10% 的企业能将超过 25% 的 LLM 开发项目推进至生产阶段，而逾 75% 的企业则尚未实现任何 LLM 应用的商业化落地。这一现状凸显了从理论原型到实践应用之间存在的显著差距。例如前面介绍的不同的应用范式都面临实际的问题需要解决。究其原因，大模型应用从研发到生产依然面临着一系列挑战。

大模型依赖存在不确定性

LLM 作为一种复杂的统计模型，其行为偶尔呈现出不可预知性，尤其在以下几个核心问题上表现突出：

模型效果不佳： 模型在处理复杂逻辑推理任务时能力欠佳，且由于知识库的局限性，面对新颖问题时回答质量不高。此外，随时间推移，模型漂移可能导致回答质量逐渐下滑。
性能与可靠性挑战： LLM 设计为无状态，完成一次回答需耗时超过十秒，复杂推理则更久。在高并发场景下，大型模型的请求容易引发限流，同时部分请求还可能偶发失败，影响服务稳定性。
可解释性和透明度不足： 模型的可解释性需要提供详尽的模型版本、参数配置及部署详情，以便用户更好地理解和验证模型输出的答案。
资源管理问题： 监控计算资源的负载与效率至关重要，因 LLM 系统在高峰期可能遭遇响应迟缓，并受限于 Token 计数的硬性约束，影响服务的连续性和效率。

LLM App 架构链路复杂

一个复杂的 LLM App 应用架构可能包含前端 UI 组件、认证模块、会话管理、对话服务、LLM 路由以及静态或者动态的流程编排。需要对接不同的 LLM 服务，需要借助 Moderation 和 Guarddrails 进行内容审查以及提示词防御。可能会调用外部工具或者服务来完成具体的操作，查询向量数据库来优化对话上下文或者长期记忆，通过对接缓存服务能够直接命中缓存降低对 LLM 的重复调用进而降低成本。可能会面临如下挑战：