重磅!OpenAI 发布新模型 o1,评测来了!

今日凌晨,OpenAI 发布了一款名为 o1 的全新大型模型,它作为 OpenAI 下一代 “推理” 模型中的首个登场,其代号为 “Orion(猎户座)”。

在这里插入图片描述

亮点与技术创新

o1 模型在处理复杂及多步骤问题上表现突出,尤其在编写代码与解决数学问题方面,超越了以往的模型。

o1 模型运用了全新的优化算法,并且通过专门为其定制的新训练数据集进行训练。

与之前的模型不同,O1 模型能够逐步解决问题,凭借内部的 “思考链” 逐步推理并优化解决方案,这使得它在应对需多步骤解决的问题时更加高效。
在这里插入图片描述

O1 模型具备自我事实核查的能力,这意味着它在回答问题之前会花更多时间考量各个部分,进而降低错误信息和不准确输出的可能性。

这种新的训练方式让模型在减少错误的同时,也变得更加精确。

OpenAI 表示,o1 模型与 GPT-4o 的主要区别在于:它能够更好地解决复杂问题,像编码和数学问题,并且可以阐释其推理过程。

评测效果

在国际数学奥林匹克资格考试中,o1 的得分高达 83%,而 GPT-4o 的正确率仅为 13%。在 Codeforces 编程比赛中,o1 模型的表现达到了参与者的 89% 的百分位。

O1 模型在代码分析和优化方面展现出强大的能力,GitHub 已在其 AI 编程助手 GitHub Copilot 中集成了 O1 模型,以提升代码质量和性能。

O1 模型系列在安全性方面进行了优化,减少了生成错误信息(即 “幻觉现象”)的情况。o1-preview 在安全性测试中得分较高,表明其在遵循安全和一致性指南方面的能力更强。

一些用户和开发者已经开始使用 O1 模型,并分享了他们的体验。例如,有教授在使用 O1 模型后表示,虽然它并非在所有方面都优于 GPT-4o,但在解决某些难题方面表现出色。

使用入口

O1 模型已被集成到 ChatGPT 中,用户可以在对话环境中利用其先进的推理能力。

O1 模型有两个版本,即 o1-preview 和 o1-mini。

其中 O1-mini 专门为编码任务设计,响应速度更快,成本比 O1 模型低 80%,同时仍保持着高效的推理能力。

不过,无论是 “预览版” 还是 mini 版,模型成本都比 GPT-4o 模型更高,且回答问题的速度较慢。

通过 API 使用 o1 预览版,输入每百万 token 的收费为 15 美元,输出每百万收费 60 美元。相比之下,GPT-4o 的百万 token 输入收费为 5 美元,输出为 15 美元。

目前,Plus 用户已经可以访问 o1 预览版和 o1-mini,让我们一起来实际测试一下吧!

实测使用感受

为了评估 o1 的进步程度,我们准备了三道此前曾难住众多大模型的问题,按照从易到难的顺序,来看看 o1 的表现究竟怎样?

面对经典的常识性问题,o1 总算把漏洞修复了。

但在面对 “调休” 这个问题时,o1 又一次 “出状况” 了。

截至目前,只有 Claude 顺利通过了 “调休” 测试,对此我真的不知还能说些什么。确实得承认,这道数学题设计得相当精妙。

当下,o1-preview 在使用次数上存在限制。例如,ChatGPT Plus 用户每周可使用的 o1-preview 消息数量限额是 30 条,而 o1-mini 为 50 条。

总体来讲,o1 模型的表现有可圈可点之处,我们能够看到它内部的 “思维链” 技术,开始重视按步骤进行思考的过程,但在面对复杂问题时,其逻辑推理能力仍有进步的余地。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。

路线图很大就不一一展示了 (文末领取)
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告(持续更新)👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

### Stable Diffusion 3 发布信息和特性 #### 架构特点 Stable Diffusion 3采用扩散转换器架构作为其核心竞争力,这种架构使得模型能够更有效地处理复杂的图像生成任务[^1]。 #### 性能提升 相比前代版本,Stable Diffusion 3在多个方面实现了显著改进。具体来说,在文本语义理解、色彩饱和度、图像构图等多个维度上均有增强,尤其值得注意的是对于多主题提示的支持以及更高的图像质量[^2]。 #### 参数规模与适用性 此款型号拥有不同大小的变体,最小版仅有8亿参数而最大可达80亿参数。这样的设计不仅让高性能计算成为可能,同时也确保了轻量化部署的需求得到满足,甚至能够在移动终端等资源受限环境中运行良好[^4]。 #### 对比其他模型的表现 当与其他同类产品如 MidJourney 进行比较时,Stable Diffusion 3展现出了不俗的竞争实力;然而面对某些特定领域内的专用解决方案(例如 OUYSD3),则显示出更为优越的整体性能优势[^3]。 ```python # Python代码示例用于展示如何加载预训练好的StableDiffusionV3模型 from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler import torch model_id = "stabilityai/stable-diffusion-3" scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler") pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16) pipe.to("cuda") prompt = "A fantasy landscape with a castle on top of the mountain under starry sky." image = pipe(prompt).images[0] image.show() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值