【LLM】OpenAI 的DAY12汇总和o3介绍

note

  • o3 体现出的编程和数学能力,不仅达到了 AGI 的门槛,甚至摸到了 ASI(超级人工智能)的边。

Day 1:o1完全版,开场即巅峰

12天发布会的开场即是“炸场级”更新——o1完全版。相比此前的预览版本,o1实现了质的飞跃。

在国际数学奥林匹克预选赛题目(AIME 2024)和编程能力测试(Codeforces)中,o1的表现分别提升了50%,复杂问题处理的错误率下降了34%。此外,多模态识别的加入,让o1的应用场景成倍增长。新增的功能使其能够处理图像和文本的综合任务,例如医生分析医学影像或设计师获取创意建议。o1的实用性大幅提升,但代价也不低。o1的高性能也伴随着高价格:只有200美元的Pro版订阅用户才能享受无限使用,而普通用户仅限每日20次。

Day 2:o1-mini强化微调,专业领域精准打击

第二天的更新聚焦于o1-mini模型的强化微调。这项技术通过强化学习方向的调整,使模型的推理能力得到显著提升。

尤其在医疗、法律等复杂领域,仅需“几十个例子”甚至12个例子,就能完成有效的微调。数据显示,强化后的o1-mini模型在测试中的通过率比传统微调模型提升24%,相比未强化版本更是高出82%。

Day 3:Sora,姗姗来迟的遗憾

等待了10个月后,Sora终于亮相。这款生成视频的工具支持最长20秒、分辨率达1080p的视频生成,并配备了创新的故事板功能。

用户可以通过时间轴设计场景卡片,串联多个提示词,系统自动生成过渡效果。此外,Remix、Blend和Loop三项工具提供了更灵活的编辑能力。然而,Sora的模型能力并未升级,导致生成效果频频翻车:运动逻辑混乱、物理效果缺失,甚至出现“鬼影”。尽管OpenAI为其配备了专业工具以及故事板功能,但模型本身的能力不足严重拖了后腿。更让人不满的是,Plus用户每月仅能使用50次,Pro用户也只能在“慢速”模式下享受无限使用。

Day 4:Canvas,AI多功能工作台

Canvas的发布,是OpenAI尝试从聊天机器人向生产力工具转型的标志。Canvas是OpenAI首次尝试打造AI版Google Docs的产品。

它将智能写作、代码协作和AI智能体集成到一个工作台中:

  • 智能写作:提供实时编辑建议,优化文本质量。
  • 代码协作:内置WebAssembly Python模拟器,实现无延迟的编程体验,并具备理解代码意图的能力。
  • AI智能体:用户可定制化AI助手,完成从撰写邮件到管理任务的操作。
    Canvas的三大功能无缝集成,构成了一个多功能的创作工作室。然而,单独对比功能,其文本编辑不如Claude的Artifacts,编程便利性也逊色于Cursor。

Day 5 & Day 11:与苹果深度合作

在第五天和第十一天,OpenAI宣布了与苹果的合作成果。这次整合主要体现在三个方面:

  • 与Siri协同:Siri可将复杂任务移交给ChatGPT处理。
  • 写作工具增强:支持从零开始撰写文档、细化和总结内容。
  • 视觉智能:通过iPhone 16的相机控制功能,用户可以深入了解拍摄对象。

此外,第十一天的更新还赋予ChatGPT更多Mac工具的调用权限。这次合作,不仅巩固了OpenAI的行业地位,也显示出苹果对AI领域的更高依赖。

Day 6:视频通话功能,“HER”成真

视频通话功能让用户可以通过镜头与GPT实时互动。这一功能虽然早在5月的演示中亮相,但此次正式上线仍让人兴奋。它不仅拓展了AI的交互方式,还让人联想到电影《HER》中与AI深度连接的场景。

Day 7-10:小更新,凑数之作

这几天的更新显得较为平淡。从Projects项目功能到ChatGPT搜索升级,再到o1图像输入和4o高级语音API开放,这几天的更新被评价为“可有可无”。

  • Projects项目功能:集中管理项目文件和对话。
  • ChatGPT搜索升级:支持对话内搜索和多模态输出。
  • o1图像输入与4o高级语音API:功能开放,但无重大创新。

尽管如此,集中对话文件管理和多模态搜索等功能,仍有一定实用价值。

Day 12:GPT-o3,终极王炸

在最后一天,OpenAI用GPT-o3的发布引爆全场。

  • 相较于o1,o3在多个领域实现了跨越式进步:
  • Codeforces评分:2727,全球排名175,超过99%人类程序员。
  • 博士级科学问题(GPQA):87.7%,远超人类平均水平。
  • ARC-AGI基准测试:87.5%,展现了新型任务适应能力的飞跃。

尤其是ARC-AGI测试得分,从GPT-3的0%到GPT-4o的5%,再到o3的87.5%。
在这里插入图片描述
尽管o3的高算力成本暂时限制了普及,但它证明了Scaling Law依然有效,并将AI的发展推向新的高峰。

OpenAI o3:

  1. o3在Codeforces编程竞技中击败了99.9%的程序员,在168076名程序员中排名175名。甚至o3的作者都打不过o3。

  2. o3在编程解决真实世界需求方面也比o1有明显提升,在SWE-Bench软件开发测试中,之前发布的o1-preview是41.3%,o3是71.7%,也就是70%的真实世界需求,o3可以直接做对,并通过单元测试。也就意味着只有剩下30%的工作需要人类程序员去编码完成了,而这部分工作AI也可以帮助人类程序员大大提升效率。

  3. 在AIME 2024数学测试中做对了96.7%,相当于在美国数学奥林匹克竞赛上只答错了一道题。

  4. 在博士级别科学问题测试的GPQA Diamond中超过o1 10个百分点,而o1已经基本上是人类博士生的平均水平。

  5. 图形逻辑推理的ARC-AGI,o3经过微调后,达到87.5%,超过人类平均水平(85%)。

RFT:SFT只知道最优答案,RFT看到过多条路径,按照打分优化得分最高的那条路径生成的概率。可以简单理解为传统的PPO需要依赖训练好的奖励模型,而RFT这里甚至可以用专家规则来代替奖励模型打分。但前提是需要o1这种能生成搜索解空间的CoT大模型

Reference

[1] https://www.datacamp.com/blog/o3-openai

OFDM(正交频分复用)是一种高效的多载波通信技术,它将高速数据流拆分为多个低速子流,并通过多个并行的低带宽子载波传输。这种技术具有高频谱效率、强抗多径衰落能力灵活的带宽分配优势。 OFDM系统利用大量正交子载波传输数据,子载波间的正交性可有效避免码间干扰(ISI)。其数学表达为多个离散子载波信号的线性组合,调制解调过程通过FFT(快速傅立叶变换)IFFT(逆快速傅立叶变换)实现。其关键流程包括:数据符号映射到子载波、IFFT转换为时域信号、添加循环前缀以减少ISI、信道传输、接收端FFT恢复子载波数据解调原始数据。 Matlab是一种广泛应用于科研、工程数据分析的高级编程语言交互式环境。在OFDM系统设计中,首先需掌握Matlab基础,包括编程语法、函数库工具箱。接着,根据OFDM原理构建系统模型,实现IFFT/FFT变换、循环前缀处理信道建模等关键算法,并通过改变参数(如信噪比、调制方式)评估系统性能。最后,利用Matlab的绘图功能展示仿真结果,如误码率(BER)曲线等。 无线通信中主要考虑加性高斯白噪声(AWGN),其在频带上均匀分布且统计独立。通过仿真OFDM系统,可在不同信噪比下测量并绘制BER曲线。分析重点包括:不同调制方式(如BPSK、QPSK)对BER的影响、循环前缀长度选择对性能的影响以及信道估计误差对BER的影响。 OFDM技术广泛应用于多个领域,如数字音频广播(DAB)、地面数字电视广播(DVB-T)、无线局域网(WLAN)以及4G/LTE5G移动通信,是这些通信标准中的核心技术之一。 深入研究基于Matlab的OFDM系统设计与仿真,有助于加深对OFDM技术的理解,并提升解决实际通信问题的能力。仿真得到的关键性能指标(如BER曲线)对评估系统可靠性至关重要。未来可进一步探索复杂信道条件下的OFDM性能及系统优化,以适应不同应用场景
51单片机是电子工程领域常用的入门级微控制器,广泛应用于小型电子设备,例如电子时钟。本项目将介绍如何利用51单片机设计一款简单的电子时钟,并通过Keil软件进行程序开发,同时借助Proteus仿真工具进行电路模拟,帮助初学者掌握51单片机的基础应用。 51单片机基于Intel 8051内核,集成了CPU、RAM、ROM、定时器/计数器I/O端口等功能模块,具有易于编程性价比高的优势。在电子时钟项目中,主要利用其定时器实现时间的精确计算。Keil μVision是51单片机的常用开发环境,支持C语言汇编语言编程。开发时,需编写代码以控制单片机显示更新时间,包括初始化时钟硬件、设置定时器中断、编写中断服务程序以及与LCD显示屏交互等步骤。关键环节如下:一是初始化,配置时钟源(如外部晶振)设定工作频率;二是定时器设置,选择合适模式(如模式1或模式2),设置计数初值以获得所需时间分辨率;三是中断服务,编写定时器中断服务程序,定时器溢出时更新时间并触发中断;四是显示控制,通过I/O端口驱动LCD显示屏显示当前时间。 Proteus是一款虚拟原型设计软件,可用于模拟硬件电路,帮助开发者在编程前验证电路设计。在Proteus中,可搭建51单片机、LCD模块、晶振及电阻、电容等元件,形成电子时钟电路模型。运行仿真后,可观察程序在实际电路中的运行情况,及时发现并解决问题。 实际项目中,51单片机电子时钟还涉及以下知识点:一是时钟信号产生,定时器通过计数外部时钟脉冲实现时间累计,可通过调整晶振频率定时器初始值设置不同时间间隔;二是LCD接口,需理解LCD的命令数据传输协议,以及如何控制背光、显示模式、行列地址等;三是中断系统,了解中断概念、中断向量及程序中中断的启用禁用方法;四是数码管显示,若使用数码管而非LCD,需了解其显示原理及段选、位选的驱动方式。 本项目融合了单片机基础、
### 如何在 Python 中使用 OpenAILLM 要在 Python 中使用 OpenAI 的大型语言模型 (LLM),可以通过安装 `openai` 库并与 API 进行交互实现。以下是具体方法: #### 安装依赖库 首先,需要确保已安装必要的 Python 库。可以使用以下命令安装所需的包: ```bash pip install openai langchain ``` #### 配置 OpenAI API 密钥 为了调用 OpenAI 的服务,需设置环境变量或直接在代码中提供 API 密钥。推荐的方式是通过环境变量配置密钥以提高安全性。 ```python import os os.environ["OPENAI_API_KEY"] = "your-api-key-here" ``` 或者,在脚本开头导入并初始化 OpenAI 模块时传递密钥: ```python from openai import OpenAI client = OpenAI(api_key="your-api-key-here") ``` #### 调用 OpenAI 大型语言模型 下面是一个简单的例子,展示如何利用 GPT-3 或其他支持的模型生成文本响应[^4]。 ```python from openai import OpenAI def generate_text(prompt, model_name='gpt-3.5-turbo'): client = OpenAI() response = client.chat.completions.create( model=model_name, messages=[ {"role": "user", "content": prompt}, {"role": "assistant", "content": ""} ] ) return response.choices[0].message.content.strip() prompt = "Alice has a parrot. What animal is Alice's pet?" generated_response = generate_text(prompt) print(generated_response) ``` 上述代码片段展示了如何发送提示给指定的大规模预训练语言模型,并获取其返回的回答。这里选择了较新的聊天接口版本 `chat.completions.create()` 方法作为示范。 对于更复杂的场景,比如结合本地文档处理流程,则可能涉及多个阶段的工作流设计。例如先解析 PDF 文件内容再转化为向量形式存入索引数据库以便后续检索操作等步骤[^2][^3]。 最后值得注意的是实际部署过程中还需要考虑性能优化以及成本控制等问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山顶夕景

小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值