DeepEval:开源的LLM评估框架
deepeval The Evaluation Framework for LLMs 项目地址: https://gitcode.com/gh_mirrors/de/deepeval
项目基础介绍和主要编程语言
DeepEval 是一个简单易用的开源大型语言模型(LLM)评估框架。它类似于 Pytest,但专门用于单元测试 LLM 输出。该项目主要使用 Python 编程语言开发,适合 Python 开发者使用。
项目核心功能
DeepEval 的核心功能包括:
- 多种评估指标:支持多种 LLM 评估指标,如 G-Eval、幻觉检测、答案相关性、RAGAS 等。这些指标可以通过本地运行的 LLM 和其他 NLP 模型进行评估。
- 批量评估:可以轻松地在不到 20 行 Python 代码中对整个数据集进行批量评估,支持并行处理。
- 自定义指标:用户可以创建自己的自定义指标,并自动集成到 DeepEval 的生态系统中。
- CI/CD 集成:无缝集成到任何 CI/CD 环境中,方便在开发流程中进行持续评估。
- 基准测试:支持在不到 10 行代码中对任何 LLM 进行基准测试,包括 MMLU、HellaSwag、DROP、BIG-Bench Hard、TruthfulQA、HumanEval、GSM8K 等。
项目最近更新的功能
最近更新的功能包括:
- 云端评估:现在可以在 Confident AI 的基础设施上免费运行 DeepEval 的评估指标。
- 生产实时评估:支持在生产环境中实时评估 LLM 响应,并将生产事件添加到现有评估数据集中,以增强评估效果。
- 调试和优化:通过 LLM 跟踪记录调试评估结果,并根据评估结果比较和选择最佳超参数(如提示模板、分块大小、使用的模型等)。
DeepEval 是一个功能强大且灵活的 LLM 评估工具,适合各种 LLM 应用场景,无论是基于 RAG 还是微调的应用。
deepeval The Evaluation Framework for LLMs 项目地址: https://gitcode.com/gh_mirrors/de/deepeval