DeepSeek-R1 vs o1-pro,Grok 3竟成幕后赢家?!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2025我们继续出发。

关于国产靓仔DeepSeek-R1老牌强手o1谁更强的话题从来没有停止过。

其实,在o1之上,还有一个更厉害的o1-proo1-pro并不是一个新模型,而是o1模型的高算力模式,类似于电脑和手机的“高性能模式”或“电竞模式”。目前o1-pro只对开通了每月200美元的ChatGPT Pro会员开放使用。

o1-pro在本身的问答质量上其实和o1差不多,毕竟底层模型没有变,“智商”还是那个“智商”。但o1-pro在问答质量的稳定性一致性上要比o1高不少。

比如同一个问题,你连续分别问o1-proo14次,记录它们在4次尝试中都回答正确的比例。这个测试被称为“4/4可靠性4/4 reliability)”测试。

这么强的o1-pro,也有被DeepSeek-R1打败的时候。

近期,一项编程测试开始在X平台风靡。

这个测试要求AI模型编写一个Python脚本,实现“一个黄色小球在一个正方形区域内反弹”的动画效果,同时正方形区域在缓慢旋转。

这个测试的原始提示词如下。

write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square

就是看起来如此“平平无奇”的问题,DeepSeek-R1完败o1-pro。来看结果。左边是o1-pro的结果。右边是DeepSeek-R1的结果。

原作者Ivan Fioravanti表示:尽管DeepSeek-R1的碰撞效果还不完美,但这两个结果简直是天壤之别,而且一个每月要200美元(o1-pro),另一个几乎是免费的(DeepSeek-R1)。

随后,Ivan Fioravanti让DeepSeek-R1对输出结果中的“碰撞效果”进行改进。这次DeepSeek-R1的表现稍稍“拉胯”,小球直接飞出去了。

Ivan Fioravanti随即表示:好了,程序员们,2025年我们安全了!(意思是不会被AI取代了)

等等别走,还有高手。

Ivan Fioravanti的这个颇为有趣的测试很快传播开来。网友们纷纷进行了测试,分享测试结果。这其中就包括xAI的工程师Eric Zelikman

Eric Zelikman分享了Grok 3的测试结果。注意,这些都是首次(one shot)结果。

从结果来看,毫无疑问,Grok 3在其中的效果是最好的。比DeepSeek-R1还要好。

Grok 3是xAI未发布但即将发布的最新模型,是当前的Grok 2的升级版本。据马斯克之前的透露,Grok 3的预训练使用了比Grok 2高出10倍的算力,利用了100,000个NVIDIA H100 GPU的Colossus超级计算机集群进行训练。目前,Grok 3的预训练已经完成,等待发布中。

马斯克声称:Grok 3将成为世界上最强大的AI模型之一。

结语

坐等马斯克xAI的Grok 3


精选推荐​​​​​​​


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

小声哔哔:现在关注,你就是老粉了!

### 不同 Deepseek-R1 细分模型的差异及应用场景 #### 性能特点与能力边界 Deepseek-R1 模型相较于其他模型,在处理复杂图结构方面表现出显著优势[^1]。该特性使得其特别适合于需要深入分析和多步逻辑推理的任务。然而,这种设计也带来了特定挑战——即在面对简单直接的问题时可能不如专门优化过的轻量化模型高效。 #### 场景适用性对比 - **金融反欺诈** 在这一领域内,尽管 Grok-3 展现出了极低误报率的优势,但 DeepSeek-R1 凭借更快捷高效的交易模式模拟速度为实时风险评估的理想工具[^2]。 - **灾难响应** 对于自然灾害预警而言,虽然 Grok-3 能够提供更为提前的数据支持用于火灾蔓延趋势预估;但在工业安全事故应急管理上,DeepSeek-R1 则展示了无可比拟的速度效益,能够在瞬间生应对措施建议。 #### 技术路径剖析 - **纳米级渗透路线** 这一技术方向强调通过高度集化的工业控制系统实现即时监控与快速反应机制。具体表现为连接大量生产设施中的可编程逻辑控制器(PLC),从而建立起了一个具备极高灵敏度的安全防护体系,并利用自主研发的高性能硬件进一步降低了运算本和功耗水平。 ```python # 示例代码展示如何调用 Deepseek-R1 API 来获取工业安全事件应急方案 import requests def get_emergency_response(api_key, incident_type): url = "https://api.deepseek-r1.com/emergency" headers = {"Authorization": f"Bearer {api_key}"} params = {"incidentType": incident_type} response = requests.get(url, headers=headers, params=params) if response.status_code == 200: return response.json() else: raise Exception(f"Error fetching data: {response.text}") # 使用示例 try: emergency_plan = get_emergency_response('your_api_key_here', 'industrial_accident') print(emergency_plan['solution']) except Exception as e: print(e) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值