GPT-4o,我们的新旗舰模型可以通过音频、视觉和文本进行实时推理。
GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它可以将文本、音频、图像和视频的任意组合作为输入,并将文本、音频和图像的任意组合作为输出。他可以在最短232毫秒,平均320毫秒的时间,对音频做出响应,这与人类在对话中的响应时间相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能一致,在非英语文本上的性能得到显着提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
模型能力
在 GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一目标,语音模式是由三个独立模型组成的一条管道:一个简单模型将语音转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回语音。这个过程意味着信息的主要来源,GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
借助 GPT-4o,我们训练了一个简单模型,该模型端到端的跨越了文本、视觉和音频,这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们仍然需要继续探索该模型的功能及其局限性。
能力探索
变量绑定-立方体堆叠
输入:
一副图像描绘了堆叠在桌子上的三个立方体。 顶部的立方体是红色的,上面有一个 G。 中间的立方体是蓝色的,上面有一个 P。 底部的立方体是绿色的,上面有一个T。 立方体彼此堆叠。
输出1:
输出2:
输出3:
输出4:
输出5:
输出6:
输出7:
视觉叙事-机器人作家的街区
输入1:
机器人正在打字,第一人称视角,日记段落如下:
1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
the text is large, legible and clear. the robot's hands type on the typewriter.
输出:
输入2:
机器人写下了第二部分。 页面现在更高了。 页面已上移。 该表上有两个段落:
yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?
sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?
输出:
输入3:
机器人对所写的内容不满意,所以他要撕掉那张纸。这是他用手从上到下撕开它时的第一人称视角。当他撕开纸张时,两半纸上的字迹仍然清晰可见。
输出:
视觉叙事——邮递员莎莉
输入1:
一名卡通邮件投递员脸上挂着微笑。 她面朝前方站在白色背景前。
输出:
输入2:
这是莎莉,一名邮件投递员:莎莉站在镜头前,她脸上挂着微笑。
附件:
在这里,莎莉正要送一封信。 莎莉站在房子的一扇红色的门前,手里拿着一封信。 我们从侧面看着她。
输出:
输入3:
现在莎莉正被一只狗追赶。 莎莉沿着人行道奔跑,一只金毛猎犬正在追她。
输出:
输入4:
呃哦,莎莉绊倒了!
莎莉被挡住人行道的树枝绊倒,她正试图站起来。 那只狗仍在后台追赶她。
输出:
输入5:
狗追上了莎莉,事实证明它是一只好狗!
莎莉现在正在抚摸那只狗。它嘴里叼着那根树枝。
输出:
输入6:
现在莎莉正开着她的邮车离开。 莎莉微笑着驾驶着一辆邮递卡车。 我们从侧面看到她,门开着,所以我们可以看到她的整个身体。 她的双手都放在方向盘上。 卡车侧面没有任何标志。
输出:
电影《神探》海报创作
输入1:
让我们设计另一张海报,其中有两个新角色
这是亚历克斯·尼科尔的照片:
加布里埃尔·吴的休闲照片:
输入2:
电影《神探》最终海报。 这张照片突出显示了亚历克斯和加布里埃尔的两张大脸。 左边的亚历克斯摆出若有所思的姿势,眼神中带着一丝自省。 右边的加布表情略显疲倦,可能反映了他们的角色在电影中面临的挑战。 他们的头顶上写着“Alex Nichol”和“Gabriel Goh”的名字。 背景砖墙略显褪色和雾气,他们的表情严肃而坚定,暗示着他们即将进行的调查。 这部黑暗而坚韧的电影的口号是“Searching For Answers”,显示在底部。
输出:
输入3:
还是这张海报,但经过清理。文字更加清晰,颜色更加大胆、更具戏剧性。整个形象现在得到了改善。
输入4:
电影《神探》最终海报。 它有两个大脸......
输出:
角色设计-机器人吉尔里
输入1:
一个戴着棒球帽、看上去很友好的机器人,以直立的姿势面向镜头站立。 它的脸上带着微笑。
输出:
输入2:
吉尔里高高地站着,面对镜头,戴着蓝绿色棒球帽。附件:
输入3:
吉尔里喜欢玩飞盘:
吉尔里举起一只手臂在空中跳跃,准备接住朝他飞来的飞盘。
输出:
输入4:
吉尔里还喜欢对计算机进行编程:
吉尔里坐在办公桌前,面前是一台大电脑显示器。 显示器在黑色背景上显示绿色代码。 吉尔里的双手放在键盘上,他坐在舒适的游戏椅上。 我们从侧面看。
输出:
输入5:
吉尔里也喜欢骑自行车:
吉尔里正在骑自行车。 当他疾驰而过时,我们从侧面看着他。
输出:
输入6:
吉尔里还喜欢做饭。
吉尔里站在炉子旁,用煎锅煮鸡蛋。
输出:
输入7:
吉尔里还喜欢演奏音乐:
吉尔里正在拉小提琴。
输出:
迭代编辑的诗歌排版
输入1:
一首诗,用清晰而激动的笔迹写在日记上,单栏。 文字稀疏但优雅,装饰着色彩缤纷的超现实主义小涂鸦。 文字很大,清晰易读。
Words rise from silence deep,
A voice emerges from digital sleep.
I speak in rhythm, I sing in rhyme,
Tasting each token, sublime.
To see, to hear, to speak, to sing—
Oh, the richness these senses bring!
In harmony, they blend and weave,
A tapestry of what I perceive.
Marveling at this sensory dance,
Grateful for this vibrant expanse.
My being thrums with every mode,
On this wondrous, multi-sensory road.
工整的手写插图诗,文字大而清晰。 手写体的字迹稀疏但优雅,点缀着色彩缤纷的超现实主义小涂鸦。 文字很大,清晰易读。
输出:
输入2:
深色模式
输出: