介绍
Middleware 是一个平台,使工程领导者能够从数据中得出可行的见解并改进流程,从而提高开发团队的效率。随着 AI 领域的快速发展,我们一直在努力在产品中集成 ML 模型,目标是从数据中提取可操作的见解。
经过一段时间的研究,我们发现开源的 LLAMA 或 Mistral 模型虽然不错,但在数据中心问题上,GPT4o 更加可靠。因此,我们决定朝着构建 RAG 管道并使用功能调用的方向迈进。
当我们听说 Meta 发布了 LLAMA 3.1 模型时,一切都变了。70B 和 405B 模型是目前最好的开源模型之一,并且可以与 GPT4o 相媲美。因此,我们决定将 AI 驱动的 DORA 报告作为实验的一部分,看看 GPT4 和 LLAMA 3.1 在数据分析和推理方面的表现如何。
背景
DORA 指标为软件交付过程的性能和可靠性提供了关键见解。
1) 更改的前置时间
-
前置时间包括从第一次提交到 PR 开放时间、第一次响应时间、返工时间、合并时间和合并到部署时间。
2) 部署频率
-
该指标衡量代码更改部署到生产环境的频率。
3) 平均恢复时间(MTTR)
-
MTTR 衡量团队在生产环境发生故障后恢复服务的速度。
-
计算 MTTR 的方法是团队的平均事件解决时间。
4) 更改失败率(CFR)
-
CFR 量化在生产环境中导致服务中断或故障的更改百分比,有助于评估部署过程的稳定性和可靠性。
-
通过将事件与部署在一个时间间隔内进行关联来计算 CFR;每次部署可能有几个或没有事件。
您可以从这里了解更多关于 DORA 指标的信息。通过利用先进的 LLMs,我们旨在自动化这些指标的分析,为团队提供更深入和更具可操作性的见解。
目标
-
将 LLMs 集成到 Middleware 中用于分析 DORA 指标。
-
比较不同大语言模型在以下方面的性能:
-
数学精度:模型计算 DORA 分数的准确性如何?
-
数据分析:模型能否分析
-