GPT-4o 的出现又打翻了多少人的饭碗？

本文链接：https://blog.csdn.net/aolan123/article/details/138871775

OpenAI 原先定在9号的的发布会，今天凌晨开完了。

今早打开手机全是讨论 OpenAI 发布的新模型 —— GPT-4o。

GPT-4o，这个o就是"Omni"，Omni是拉丁语词根，意为"全体”、“所有"或"全面的”。

由此可见，OpenAI这次对GPT-4o的期待很高。

通过这次发布会基本上可以实锤 GPT-4o 就是前段时间所有人都在猜测GPT4.5。

发布会很简单，Sam 没有亲自出现，由 Mira 作了简单的介绍，然后是现场实时演示。

Mira 的发布三句话就能说完:

1、OpenAl的使命是确保 AGI 对所有人类有益；

2、ChatGPT 即将更新桌面客户端和新的 Web Ul；

3、新模型 GPT-4o 是全功能模型，支持文字、语音、视频、图片，将免费开放给所有人使用；

重点， GPT-4o 免费使用！

演示环节，现场演示了几个案例:

1、语音识别紧张情绪并给出放松的建议；

2、用不同的声调语气讲故事；

3、在视频对话中，一步一步地引导解答数学问题(是 AI 引导人)用桌面程序实时分享电脑桌面，并给出编程建议，解释电脑屏幕上的图表；

互动环节，从观众的问题里抽了两个案例:

1、实时翻译；

2、通过视频对话识别发言人的情绪；

结合 OpenAl 官网博客文章中的显眼标识(所有视频为 1倍速播放)，大概是在阴阳一些录屏还造假的产早发布吧。

看一下官方博客的介绍，分了两篇，一篇是介绍 GPT-4o，另一篇是宣布免费给所有人用。

GPT-4o 的能力也远不止发布会上呈现的，在博客中给出了更多案例。

包括实时翻译，两个 GPT-4o 互相对话，帮助盲人识别环境，视频会议，辅助面试，辅助语言学习、数学学习、唱催眠曲等等。

补充一个暴论：GPT-4o 也许会是有史以来最强的 TTS 软件。

回忆一下过去那些 AI 配音的小说阅读器，缺点就是没有感情，平淡如水。

GPT-4o 可以完美地识别小说上下文的语境和应该提供的情感、语调，甚至干脆可以分饰多角。

也许，OpenAI 在不经意间炸掉了 AI 朗读小说的赛道…

换句话说，过去 ChatGPT 的各项能力是单独训练的，即便在之前的 App 中提供了语音对话/朗读功能，也是依靠：Whisper 语音转文字，GPT-4 回复文字内容，TTS 生成对话语音。

而 GPT-4o 则是完全重新训练的，含文字、视觉、音频的端到端模型，也就是说所有输入和输出都由同一神经网络处理。

OpenAI 的原话是：「鉴于 GPT-4o 是第一个融合所有模态的模型，这也意味着我们只是触及了其能力和局限的表面。」（隐含巨大潜力）

举个例子，DALLE 之前不会写字，现在 GPT-4o 可以直接生成含文字的图像，并按要求修改：

可以保持角色/风格一致性生成连续的故事图像：

可以融合图像制作为海报：

可以生成手写风格的信笺或画报：

可以基于 Logo 设计纪念币徽章：

可以直接转换照片风格：

可以转换文字字体：

可以生成 3D 对象：

可以直接把 Logo 设计融入某个物体：

插几句题外话，这部分工作让我想起了阿里之前的 AnyText，但现在一个端到端的多模态模型直接涵盖了这部分能力，不可谓不是大力出奇迹啊…

关于其他还有很多，我就展开一一介绍了，感兴趣的伙伴可以去官网博客看详细。

对于 GPT-4o 的体验感，我个人觉得是比 GPT-4-Turbo 还要快，看来官方说的提速降价所言不虚。

根据测试， GPT-4o 每 3 小时最多发送 80 条消息，比 GPT-4 多出了两倍。

这次 GPT-4o 选择免费给所有人用，兑现 OpenAI 承诺的使命，但觉得很有可能会导致付费用户减少，毕竟付费和免费的的差异化权益不够多。

也许是为了新产品做准备，相信 OpenAI 很快会推出其他功能，期待一下吧。

最后，不知道多少人注意 Mira 在发布会结束时说了一句：

Today has been very much focused on the free users and the new modalities and new products. But we also care a lot about the next frontier. So soon we’ll be updating you on our progress towards the next big thing.

现在就等着看 the next big thing 了，如果这两周能拿出来狙击谷歌 IO 的发布就有更趣了…

随便聊聊

自 GPT-4o 发布后所有人都沉浸在这个产品更新的喜悦中，我个人觉得OpenAI 似乎面临一个大家不愿讨论的窘境:

1、不管它如何创新，它的产品功能很容易在几个月内被其它竞争者追上甚至超越。竟争者包括并不限于: 脸书，谷歌，亚马逊，xAi,等等:

2、在财务不透明的情况下，残酷的现实是同样的产品功能，其价格是下降的。甚至 openai一些先前要收费的服务，现在不得不免费发布。

3、它早在利润分成上和服务器资源上被微软绑定。微软也不讳言 openai的左边，右边，上面，下面全都被微软包围，是"孙悟空逃不了如来佛的手心"。

最后跟大伙说一下，咱们IMYAI也同步了 GPT-4o ，还没拿到官方资格的小伙伴可以先去体验一下。

GPT-4o安装包以及注册教程已备好，需要的小伙伴扫描下方图片自行获取：

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好，希望能够真正帮助到大家。