GPT4o 基本介绍（上）

最新推荐文章于 2024-09-24 08:42:04 发布

1号工人

最新推荐文章于 2024-09-24 08:42:04 发布

阅读量1.6k

点赞数 16

文章标签：人工智能 chatgpt gpt ai 机器学习

本文链接：https://blog.csdn.net/eng20220426_dant/article/details/139004244

版权

GPT-4o,我们的新旗舰模型可以通过音频、视觉和文本进行实时推理。

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它可以将文本、音频、图像和视频的任意组合作为输入，并将文本、音频和图像的任意组合作为输出。他可以在最短232毫秒，平均320毫秒的时间，对音频做出响应，这与人类在对话中的响应时间相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能一致，在非英语文本上的性能得到显着提高，同时 API 的速度也更快，成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

模型能力

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一目标，语音模式是由三个独立模型组成的一条管道：一个简单模型将语音转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回语音。这个过程意味着信息的主要来源，GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

借助 GPT-4o，我们训练了一个简单模型，该模型端到端的跨越了文本、视觉和音频，这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型，因此我们仍然需要继续探索该模型的功能及其局限性。

能力探索

变量绑定-立方体堆叠

输入：

一副图像描绘了堆叠在桌子上的三个立方体。顶部的立方体是红色的，上面有一个 G。中间的立方体是蓝色的，上面有一个 P。底部的立方体是绿色的，上面有一个T。立方体彼此堆叠。

输出1：

输出2：

输出3：

输出4：

输出5：

输出6：

输出7：

视觉叙事-机器人作家的街区

输入1：

机器人正在打字，第一人称视角，日记段落如下：

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

输出：

输入2：

机器人写下了第二部分。页面现在更高了。页面已上移。该表上有两个段落：

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

输出：

输入3:

机器人对所写的内容不满意，所以他要撕掉那张纸。这是他用手从上到下撕开它时的第一人称视角。当他撕开纸张时，两半纸上的字迹仍然清晰可见。

输出：

视觉叙事——邮递员莎莉

输入1：

一名卡通邮件投递员脸上挂着微笑。她面朝前方站在白色背景前。

输出：

输入2：

这是莎莉，一名邮件投递员：莎莉站在镜头前，她脸上挂着微笑。

附件：

在这里，莎莉正要送一封信。莎莉站在房子的一扇红色的门前，手里拿着一封信。我们从侧面看着她。

输出：

输入3：

现在莎莉正被一只狗追赶。莎莉沿着人行道奔跑，一只金毛猎犬正在追她。

输出：

输入4：

呃哦，莎莉绊倒了！

莎莉被挡住人行道的树枝绊倒，她正试图站起来。那只狗仍在后台追赶她。

输出：

输入5：

狗追上了莎莉，事实证明它是一只好狗！

莎莉现在正在抚摸那只狗。它嘴里叼着那根树枝。

输出：

输入6：

现在莎莉正开着她的邮车离开。莎莉微笑着驾驶着一辆邮递卡车。我们从侧面看到她，门开着，所以我们可以看到她的整个身体。她的双手都放在方向盘上。卡车侧面没有任何标志。

输出：

电影《神探》海报创作

输入1：

让我们设计另一张海报，其中有两个新角色

这是亚历克斯·尼科尔的照片：

加布里埃尔·吴的休闲照片：

输入2：

电影《神探》最终海报。这张照片突出显示了亚历克斯和加布里埃尔的两张大脸。左边的亚历克斯摆出若有所思的姿势，眼神中带着一丝自省。右边的加布表情略显疲倦，可能反映了他们的角色在电影中面临的挑战。他们的头顶上写着“Alex Nichol”和“Gabriel Goh”的名字。背景砖墙略显褪色和雾气，他们的表情严肃而坚定，暗示着他们即将进行的调查。这部黑暗而坚韧的电影的口号是“Searching For Answers”，显示在底部。

输出：