GPT-4o 一瞥-CSDN博客

昨天OpenAI低调发布GPT-4o的现场秀一点儿都不低调。

GPT-4o参与多人场景下的语音聊天，充当翻译，现场语音辅导作业，按要求提供合理的提示而不直接抛出答案，看懂人脸表情，饱含人类感情的语音回答（那句“stop it”的回答简直了...），让我感到震撼。Google发布Gemini时制作的视频“愿景”，如今被GPT-4o实现了。

GPT-4o的这个‘o’代表Omni-全能，从现场live show的表现来看，包含了听、说、看、情感感知和情感表达能力，这和通常意义上我们期望的智能机器人所需要具备的能力还有多少差距呢？“全能”实至名归。

上Azure云看了一下，在美东地区有资源上线，于是就试用了一下。目前还只是预览版，只能通过训练场Playground方式试用。

看了一圈，好像还没有语音接口，只有上传图片的功能，可以直接贴到对话框，跟微信聊天窗贴图一样。那就测一下图片识别和对话吧。

先做了几个对话，响应速度相当快，比Azure云原有的GPT-4和 GPT-4Turbo快很多，差不多赶上3.5的速度了，体验比官方的“速度是GPT-4的两倍”的说法还好一些。

贴上一个图片，看GPT-4o是否看得懂，

GPT-4o回复如下，

这张图片充满了感恩节的气氛。中央是一盘盛宴般的食物，包括玉米、火鸡、南瓜派和其他各种蔬菜和水果。两个人坐在盘子上：其中一个人戴着帽子，怀抱吉他，另一个人坐在南瓜派中。背景中有一壶热腾腾的饮料，冒着蒸汽。周围装饰有各种象征感恩节的元素，例如心形、音符、星星和装饰性的植物。底部用黄色文字写着“Happy Thanksgiving Day Everybody!”，文字周围是浅粉色的背景。整个图像充满了庆祝感恩节的欢乐氛围。

进一步提问，