OpenAI 12天直播过半，速来领取『三大核心』中期总结！-CSDN博客

本文链接：https://blog.csdn.net/weixin_40774379/article/details/144496245

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

OpenAI连续12天直播发布活动已进行到第7天。

既然OpenAI的直播发布已经过半，今天就来进行一波多维度中期总结。

话不多说，直接开始。

综合篇

首先总结一下这7天以来的发布时间线，直接上图。

接下来是每一天的重点发布内容，总结在了一个表格中。

日期	发布关键词
🌟 Day 1	`满血版 o1` · `ChatGPT Pro 新套餐`
✨ Day 2	`强化学习微调 (RFT)`
🎥 Day 3	`文生视频模型 Sora`
🖌️ Day 4	`ChatGPT Canvas`
🍎 Day 5	`Apple Intelligence`
🎄 Day 6	`视频聊天` · `屏幕共享` · `圣诞模式`
🚀 Day 7	`ChatGPT Projects`

一项新技术

在前7天里，有一天的发布是纯技术向的：强化学习微调 (RFT) 。强化微调技术旨在快速构建特定领域的定制化专家模型，我在对应的解读文章中提到，该技术给AI模型应用带来的意义可能要大于功能本身。

像GPT-4o、Claude 3.5、Gemini这类模型，属于通用模型，不论是哪个行业，哪个领域都能拿来直接用。太通用导致的结果必然是不够专业。现在得GPT-4o能直接用在医疗或者金融领域吗？也许可以，但专业性肯定不够强。这时，就需要用特定输入数据集对模型进行“微调”。

强化微调技术支持基于推理模型o1进行微调，能够利用强化学习算法教会模型在特定领域中进行复杂推理。通过分析模型在不同场景下的表现，并对正确的推理路径进行奖励，对错误的推理路径进行惩罚，强化微调可以引导模型逐步改进其推理能力。这一过程仅需要少量的示例（通常几十个即可），即可显著提升模型的性能。也就是，未来针对特定领域定制化专家模型的成本和门槛将会大大降低。

两个新模型

前7天共发布了两个新模型：**满血版本的推理模型o1，以及文本生视频模型Sora**。

o1

对于o1模型，有两点需要注意：满血版本和推理。

满血版本是相对于之前发布的预览版本o1-preview来说的，新发布的o1是正式版本，总结来说，推理能力更强，可靠性更强（AI模型的输出具有随机性，可靠性用来衡量模型在回答问题时的稳定性和一致性，具体对比见下面这张“4/4可靠性”测评结果），思考时间更长。并且，最新版本的o1支持图片输入，也就是能解析图片内容了。

推理则是相较于o1这个系列模型的性质来说的。o1的本质是推理模型，那么就决定了它不会像GPT-4o一样普遍适用。o1模型更适合有难度的问题和任务，GPT-4o则适合一般任务。也正因此，GPT-4系列模型的下一代并不是o1，而应该是未来会发布的GPT-4.5或GPT-5。

Sora

Sora本身是一个文生视频模型，也是一个独立的产品（sora.com）。OpenAI并没有选择将Sora整合到ChatGPT中，同时也为Sora推出了独立的积分消耗机制。并且，OpenAI显然没有预测到全世界热心网友对Sora的热情，刚发布半小时就冲爆了Sora网站，导致OpenAI不得不暂停了Sora的注册，直到2天前才彻底恢复。

而Sora的真实体验也是一言难尽，有惊喜有失望吧。生成的视频效果并没有想象中惊艳，毕竟是一个“鸽”了近10个月的产品，用户的期待还是比较高的。并且ChatGPT Plus会员仅能生成最高720p分辨率，5秒时长的视频，720p实在有点低。

总结来说，如果你已经开通了ChatGPT Plus会员，那么Sora可以尝试一波，毕竟是附加在Plus套餐中的。但如果你单纯是为了文生视频功能，那么不值得开通ChatGPT Plus，国内的文生视频产品如可灵、即梦更值得一试。

三个新功能

在OpenAI 12天直播的前半程中，共发布了三个ChatGPT的新功能：ChatGPT Canvas、高级语音模式的视觉（Vision）功能和ChatGPT Projects。

其中，ChatGPT Canvas对标的是Claude Artifacts，但并不完全相同。ChatGPT Canvas专门针对写作和编程任务，提供了一个协作式的文档和代码编辑环境，支持实时协作创作（和ChatGPT一起）、自动调试和内容优化，代码方面则新引入了Python代码执行的功能，不用再复制代码到别的IDE里进行运行调试了。如果你有写作或者代码需求，ChatGPT Canvas值得尝试。

高级语音模式的视觉（Vision）功能包括三部分：视频聊天、屏幕共享和限时提供的圣诞老人（Santa）模式。这个功能远比想象的强大，它使得ChatGPT可以“睁眼看世界”了！实测，该功能基于GPT-4o这个强大的基座模型，语音和视频聊天时的问答质量相当有保证。同时基于GPT-4o的多模态能力，实现端到端的通话，即直接输入语音和输出语音，聊天的体验很丝滑顺畅，并支持随时打断。可以说有了这个功能，ChatGPT Plus套餐变得更值。

ChatGPT Projects则对标的是发布了快半年的Claude Projects。最大的作用是组织和管理历史聊天记录，把相关的对话可以整合到一个项目（Project）下，大大降低了查找、复用历史对话的难度。同时，同一个项目下的对话可以共享同一个知识库（Knowledge Base）和自定义指令（Custom Instruction），相当于有了相同的大脑。ChatGPT Projects这几天实测下来，效果非常好，值得推荐。但作为一个新推出的功能，不可避免的有一些不足，比如和自定义GPT的聊天无法被添加到项目中，再比如移动端只能查看，不能新建项目。