HyperWrite 团队推出 Reflection 70B:性能吊打GPT-4?

image.png

HyperWrite

就在刚刚,一个初创团队 HyperWrite 打造的模型 Reflection 70B 横空出世,以惊人的99.2%准确率在 GSM8K 数学测试中一举超越了 GPT-4 等顶级商业模型,瞬间引爆了整个AI圈。这个由小型创业团队  HyperWrite 打造的模型,是如何在短短三周内完成训练并达到如此卓越的性能?让我们一起揭开 Reflection 70B 的秘密。

Reflection 70B

image.png

Reflection 70B

Reflection Llama-3.1 70B 是目前世界顶级的开源 LLM,使用一种称为 Reflection-Tuning 的新技术进行训练。Reflection 70B 最引人注目的特点是其独特的自我纠错机制。这个模型采用了一种名为"Reflection-Tuning"的创新训练方法,使其能够在生成回答的过程中不断反思和修正自己的错误。

在回答问题时,模型会先在<thinking>标签内输出其推理过程。如果在这个过程中发现了错误,它会立即在<reflection>标签中进行自我纠正。只有当模型确信自己的推理无误时,才会在<output>标签内给出最终答案

性能介绍

zNs-ZFs0SbnomH7mikiOU.png

超强性能

Reflection 70B 在 GSM8K 数学推理测试中,它取得了99.2%的惊人成绩,这个分数已经接近人类专家的水平。要知道,GSM8K 测试集中可能存在超过1%的错误答案,这意味着 Reflection 70B 的表现几乎完美无缺。

不仅如此,在 MMLU、MATH、IFEval 等多个权威基准测试中, Reflection 70B 都全面超越了 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 等顶级商业模型,以及 Llama 3.1 405B 等强大的开源模型。

image.png

Reflection 405B 版本预告

Reflection 70B 的成功只是一个开始。HyperWrite 团队已经宣布,他们即将推出更强大的 Reflection 405B 版本。这个即将面世的模型有望在性能上远超当前市面上最顶尖的闭源模型,包括 OpenAI 的 GPT-4。

 有关厚德云

厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值