496GB显存!最壕DeepSeek玩家8台Mac跑R1

 Datawhale分享 

测评结果:DeepSeek,编辑:量子位

DeepSeek-R1,正在接受全球网友真金白银的检验。

花30秒用manim代码制作解释勾股定理的动画,一次完成无错误。

1be05b54dd2f9a7782ecd5f76df88a1c.gif

为了玩上这样的模型,有人花上10多万元,组7台M4 Pro Mac mini+1台M4 Max Macbook Pro的家用超算。

86d24819996e801b442c1f2710fbc64b.png

总计496G显存(64*7+48),才能跑起个4bit量化版,但属实算得上“家用AGI”配置了。

57cad8047e2c70c555109b30c799660b.png

另一个极端是选择R1数据蒸馏版Qwen 1.5B小模型,小到浏览器就能跑,每秒能输出60个tokens。

02cbcc3339398f13d760e4735aff20bd.gif

与此同时,各种榜单也在抓紧测试,纷纷跑出了结果。

R1横扫各大榜单

首先是LiveBench,与LiveCodeBench一样,题目是随时间更新的,所以相对受认可。

R1的表现在o1-preview到o1之间,其中只有数据一项超过o1。

f7f3fc94e5be265f2bbb7b22e09e8592.png

不过再带上成本成本约1/30这个条件看,又是不一样的感觉,给老哥整无语了。

唯一的抱怨是上下文窗口太短。

1a02dd6689924897634ced76e20058ca.png

o1系列一战成名的ARC-AGI,测试结果分为公开数据和私有数据两部分。

DeepSeek R1在私有数据上解决了15.8%的问题,与DeepSeek-V3相比翻倍还多。

公开数据上更是解决了20.5%的问题,与DeepSeek-V3相比上涨约46%。

d0ce8a41f835566664ee43c0244c1f60.png

总的来看,DeepSeek-R1表现与o1-preview相近,但稍低。

7fb5e3113b7fe3920d500b4a3d2bce0d.png

但同样,带上几毛钱就能解决一道题,o1系列至少要10块钱这个背景来看,又是不一样的感觉。

3fb090be9d3c3102caba02f63e3b1b60.png

考验任务规划能力的PlanBench,同样的剧本再次上演。

7952c9f3a82443c4a642dff592ac9891.png

在开发者Xeophon自己的个人测试上,甚至超过了o1-preview。

5aab652c0329a6b5c532bb53d071f63e.png

同一个测试上,R1数据蒸馏的Qwen 32B,与DeepSeek-V3,GPT-4o和Gemini Flash处于同一水平。

813924173deb2611a14511a1c1b15278.png

最后,还有人从中看到新的创业机会。

谁来构建一个平台,能轻松地在DeepSeek R1上进行OpenAI风格的强化微调。

至少在短期内,是一个巨大的机会。

R1在正确数据和微调方法下,可能在特定任务上大幅提升。

8f5a8f2a97ae5c17ebfcfb0337e9724a.png

参考链接:
[1]https://x.com/alexocheema/status/1881561143736664180
[2]https://x.com/reach_vb/status/1881809400995934640
[3]https://livebench.ai/#/
[2]https://x.com/arcprize/status/1881761987090325517
[3]https://x.com/TheXeophon/status/1881443117787984265

b203317e81b8f1079786ae3deab0e608.png

一起三连↓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值