LLAMA 3.1 vs GPT4: 哪个在分析方面更聪明?

介绍

Middleware 是一个平台,使工程领导者能够从数据中得出可行的见解并改进流程,从而提高开发团队的效率。随着 AI 领域的快速发展,我们一直在努力在产品中集成 ML 模型,目标是从数据中提取可操作的见解。

经过一段时间的研究,我们发现开源的 LLAMA 或 Mistral 模型虽然不错,但在数据中心问题上,GPT4o 更加可靠。因此,我们决定朝着构建 RAG 管道并使用功能调用的方向迈进。

当我们听说 Meta 发布了 LLAMA 3.1 模型时,一切都变了。70B 和 405B 模型是目前最好的开源模型之一,并且可以与 GPT4o 相媲美。因此,我们决定将 AI 驱动的 DORA 报告作为实验的一部分,看看 GPT4 和 LLAMA 3.1 在数据分析和推理方面的表现如何。

背景

DORA 指标为软件交付过程的性能和可靠性提供了关键见解。

1) 更改的前置时间

  • 前置时间包括从第一次提交到 PR 开放时间、第一次响应时间、返工时间、合并时间和合并到部署时间。

2) 部署频率

  • 该指标衡量代码更改部署到生产环境的频率。

3) 平均恢复时间(MTTR)

  • MTTR 衡量团队在生产环境发生故障后恢复服务的速度。

  • 计算 MTTR 的方法是团队的平均事件解决时间。

4) 更改失败率(CFR)

  • CFR 量化在生产环境中导致服务中断或故障的更改百分比,有助于评估部署过程的稳定性和可靠性。

  • 通过将事件与部署在一个时间间隔内进行关联来计算 CFR;每次部署可能有几个或没有事件。

您可以从这里了解更多关于 DORA 指标的信息。通过利用先进的 LLMs,我们旨在自动化这些指标的分析,为团队提供更深入和更具可操作性的见解。

目标

  • 将 LLMs 集成到 Middleware 中用于分析 DORA 指标。

  • 比较不同大语言模型在以下方面的性能:

    • 数学精度:模型计算 DORA 分数的准确性如何?

    • 数据分析:模型能否分析

  • 19
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幻想多巴胺

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值