开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集

西风 发自 凹非寺
量子位 | 公众号 QbitAI

开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。

新模型名为Reflection 70B,使用一种全新训练技术,让AI学会在推理过程中纠正自己的错误和幻觉。

0deca9a1134d31d9377a2c915ac0d3fe.png

比如最近流行的数r测试中,一开始它犯了和大多数模型一样的错误,但主动在<反思>标签中纠正了自己。

508c5769e28e487ed5b5d04157600351.png

在官方评测中,70B模型全面超越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准GSM8K上直接刷爆,得分99.2%

这个结果也让OpenAI科学家、德扑AI之父Noam Brown激情开麦:

GSM8K得分99%!是不是可以正式淘汰这个基准了?

a9b37e5e89f550d225c5aac90e0c2ace.png

模型刚刚上线网友就把试玩挤爆了,对此Meta还主动支援了更多算力。

d4f3a976fbd834c22a9de361217a8532.png
0a4fb84655e8d9d75d5338cafad7ce86.png

在网友测试中,Reflection 70B能回答对GSM8K数据集中本身答案错误的问题:

我向模型提供了GSM8K中存在的5个“ground_truth”本身就不正确的问题。

模型没有重复数据集中的错误答案,而是全部回答对了,这很令人印象深刻,表明那99.2%的准确率并非来自于记忆测试集

ab6b846370acab508eff86f916cd709c.png

数各种r都不在话下,连生造词“drirrrngrrrrrnnn”中有几个r也能被正确数对。

8af0dff379ce4851e344e2431e7a173c.png

网友纷纷对小团队做出的开源超越顶流闭源感到惊讶,现在最强开源模型可以在本地运行了。

d31fe6ecd33cf062ae855a4eac813126.png

关键70B还只是个开始,官方表示下周还会发布更大的Reflection 405B

预计405B性能将大幅优于Sonnet和GPT-4o。

cd2720da88f49e9451add4f7f2937d62.png

Reflection 70B权重已公开,API访问将于今天晚些时候由Hyperbolic Labs提供。

模型能自我反思纠正错误

目前关于Reflection 70B的更多细节如下。

Reflection 70B能力提升的关键,是采用了一种名为Reflection-Tuning的训练方法,它能够让模型反思自己生成的文本,在最终确定回应前检测并纠正自身推理中的错误。

0983644aafee7fe094a9c6b936569136.png

训练中的数据来自使用GlaiveAI平台生成的合成数据。

69de2891e4b5b4d1a3ca3f49a9c0bcfe.png

Reflection 70B基于Llama 3.1 70B Instruct,可以使用与其它Llama模型相同的代码、pipeline等从Reflection Llama-3.1 70B进行采样。

它甚至使用了标准的Llama 3.1聊天格式。

不过,Reflection 70B引入了一些特殊tokens,结构化输出过程。

03b126a33e3137d59a23a38f866b98a4.png

如下面这个例子所展示的,规划过程分为一个独立的步骤,这样做可以提高CoT效果,并保持输出精炼:

d16c0e9f0baa69888907c70e661140bd.png

模型将从在<thinking>和</thinking>标签内输出推理开始,一旦对其推理感到满意,就会在<output>和</output>标签内输出最终答案。

所以它能够将其内部思考和推理与最终答案分离。

在<thinking>部分,模型可能会输出一个或多个<reflection>标签,这表明模型发现了其推理中的错误,并将在提供最终答案之前尝试纠正该错误。

系统提示如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.
(你是一个世界级人工智能系统,能够进行复杂的推理和反思。在标签内对查询进行推理,然后在标签内提供你的最终回应。如果你发现自己在任何时候推理出错,请在标签内纠正自己。)

95429d2db10edd0b2205c3f2304f79e5.png

此外值得一提的是,基准测试中,所有基准都已通过LMSys的LLM Decontaminator检查污染,隔离了<output>部分,并单独对这一部分进行测试。

使用Reflection 70B的时候,官方还分享了小tips:

  • 初步建议参数temperature为.7 , top_p为.95

  • 为提高准确性,最好附加“Think carefully.”在Prompt末尾

官方还表示,下周会发布一份报告,详细介绍模型训练过程和发现。

Agent创业团队打造

Reflection 70B的背后是一支小团队,由HyperWriteAI的CEO Mutt Shumer带领。

2d6afb6ea7979e5b8e1bb260b3410fd1.png

领英显示,Mutt Shumer是一位连续创业者,毕业于美国锡拉丘兹大学,现任OthersideAI的联合创始人兼CEO。

e5a9bc2990159d59aaf0afd0889e45dc.png

OthersideAI是一家AI应用公司,致力于通过大规模AI系统开发全球最先进的自动补全工具,也是HyperWrite的幕后公司。

HyperWrite是一个浏览器操作agent,可以像人一样操作谷歌浏览器来完成一系列任务,比如订披萨:

6bc84ee96e2f3d4eeb170ec11eb0c76d.gif

和gpt-llm-trainer一样,你只需要用文字描述目标,它就会一边列步骤,一边执行。

刚推出时号称“比AutoGPT强”。

9ef4f2cc0d2ab51af8083fd484c3eb8f.png

HyperWrite还可以在谷歌扩展程序中安装。

另外,Mutt Shumer高中时期就创立了Visos,致力于开发用于医疗用途的下一代虚拟现实软件。

还创立了FURI,这是一家旨在通过创造高性能产品并以公平的价格销售它们来颠覆体育用品行业的公司。

847c7837cf26f25ffb05a88cd1a5e2cf.png

虽然有Meta支持,但目前打开试玩,还是:暂时无法访问。

98cf4feeeb462de1e801f68c8c443dec.png

感兴趣的童鞋可以先码住了~

https://reflection-playground-production.up.railway.app/ 

参考链接:
[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

39a2635ac4b1c4475436f78f1166f894.png

点这里👇关注我,记得标星哦~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值