只需5分钟！直观感受下GPT-4o的逆天能力

本文链接：https://blog.csdn.net/m0_59164304/article/details/138867475

OpenAI在近期发布了GPT-4系列的新模型GPT-4o。这一更新主要聚焦于多模态和端侧应用，为用户提供了全新的交互体验。

GPT-4o作为OpenAI的新模型，具有三大显著特点：

多模态：GPT-4o能够接受文本、音频、图像作为组合输入，并生成任何文本、音频和图像的组合输出。这种多模态的理解能力让GPT-4o在处理复杂任务时更具优势，如识别人类的感情并根据感情做出“有感情的反应”。

几乎无延迟：GPT-4o对音频输入的响应时间最短为232毫秒，平均为320毫秒，这与人类在对话中的响应时间相似。这种极快的响应速度使得GPT-4o能够实时地与用户进行交互，提供流畅的用户体验。

可在电脑桌面运行：OpenAI还将与苹果合作推出了适用于macOS的ChatGPT桌面级应用。这一应用允许用户在没有网络的情况下使用ChatGPT，并且可以在本地设备上处理敏感信息，保护用户隐私。

一些逆天的视频展示

下面来一起了解一下它官网的一些视频展示的逆天操作：

第一个王炸，作业辅导

在这里插入图片描述

视频中展示的是巨佬在使用 GPT-4o 对他儿子进行作业辅导。它开始就告诉gpt-4o 说不要直接说出答案，而是帮助它一步一步解决这个几何题目，我们在视频中可以看到，的确是这样，gpt-4o 一步一步的帮助他儿子解决了这个问题，而且还是非常细致的解释，并且是非常有情感的，每当他儿子完成一步之后，gpt-4o 从语气上都会有一种更进一步的感觉，这种情感化的交互方式，让人感觉非常的亲切。

而且，所有的过程都是这个娃在拿着笔在一步一步的解决这个几何题目，gpt-4o 就是看着这个娃做的解题过程，它会判断这个娃每一步的解题步骤是否对了，直到正确解答，知其然知其所以然！讲真这个比一些毒害少年儿童，直接告诉答案甚至代做的作业辅导班强几万倍吧，而且这个做题的交互简直太赞了！这明显得益于GPT-4o的图像理解能力的增强。

在这里插入图片描述
讲真，按照这个趋势，教培行业似乎极有可能被干掉，那些不会做奥数题的家长，有福了，因为安特曼说，gpt-4o 是会免费的。这意味着，你不需要花费一分钱，就可以请一个专业的教培老师，帮助你的孩子解决问题。

第二个王炸，精神分裂，一个端中两个 gpt-4o 互动起来了

之前我们于gpt 的实时语音对话只能是一对一，好了，颠覆认知的时刻来了，你在一个对话窗口中，可以同时存在两个gpt-4o对话，甚至，它两还可以互相对话，这个视频中，这两 gpt-4o 相互唱起了小曲。。。

在这里插入图片描述

外语学习

在这里插入图片描述
在这个例子中，研究人员展示的是，它告诉 gpt-4o 它想学习西班牙语言，当然它使用英语说的，然后它使用摄像头对着苹果和香蕉，问gpt-4o这个是什么，gpt-4o 利用它图像识别的能力，认出了香蕉和苹果，然后告诉研究人员。

但是！但是！但是！它回的语言居然是英语和西班牙语的混合，也就是，gpt-4o 回答，this is manzana and plátano。差点没有惊掉我的下巴，一句回答中包含了多种语言。这中组合输出的能力，简直太强了。

参与多人对话中来

在这里插入图片描述
这个视频展示的是 gpt-4o 加入到了一个在线会议中，它可以看到共享的屏幕，因此它知道会议有多少个人，然后开始是每个人说了一下自己的喜欢的人和事，接着主持人发文，他们各自有哪些爱好，gpt-4o 一一都回答出来了，而且是非常的准确，最后还来了一个总结，后面腾讯会议，zoom 估计交互得更上啊，不加入一个智能记录员，这体验就得甩开好几条街了。

同声传译

在这里插入图片描述
这个视频展示的是 gpt-4o 扮演的事一个翻译者的角色，画面中的两个人一个人是将英语的，一个人是将西班牙语的，gpt-4o 就负责把听到的英语转化为西班牙语，把西班牙语转换为英语，然后两个哥们就愉快的对话了，你说你的西班牙，我说我的英语，我们都听得很懂的，所以，同声传译这个行业，是不是也要凉凉了。

外婆的澎湖湾

在这里插入图片描述
歪日哦，富有情感的和你对话是王炸的话，和这个对比简直小巫见大巫，它哼起了小区，而且还会偶尔和你聊天的时候爽朗的发出笑声，这种情感化的交互方式，让人感觉非常的亲切。当这个老外说它想睡觉，哼个小曲，gpt-4o 就开始哼起了外婆的澎湖湾，听得我差点给睡着了…这种情感化的交互方式，让人感觉非常的亲切。

语速控制

在这里插入图片描述
在这个视频中，老外让 gpt-4o 数数，1,2,3，。。。10. gpt-4o 一口气说完了，然后老外说，你能不能慢一点，gpt-4o 就慢慢的说了一遍，然后老外说，你能不能快一点，gpt-4o 就快速的说了一遍，这种语速控制就完全可以用来训练自己的听力了，这个功能比较赞，不过，我的下巴还在。

开玩笑

在这里插入图片描述
这个视频中，老外给 gpt-4o 说它要给它老爸讲个笑话，然后他想让 gpt-4o 先听听它这个笑话是不是好笑，结果，gpt-4o 真的爽朗得笑了，笑得一点都不像机器人，听到它这个笑声的时候，我的下巴还差那么一点就掉了。。。

你是我的眼

在这里插入图片描述
这个视频的效果也是相当的炸裂，视频中时候一个盲人，很显然他看不见，因此它所到之处，让 gpt-4o 告诉它周围都有写什么风景，gpt-4o 一一告诉他，从这个视频中，我有点小小的启发！

gpt-4o 可能更好的交互是类似 Google Glass的形式，这样的产品出来，估计全世界的盲人都要为之震撼，他们都将会重见光明，这个产品的价值，简直不可估量。

两个 gpt-4o 互相对话

在这里插入图片描述

这个视频中显示了两个gpt-4o 开始了对话，什么，永动机？？？实际上不是，是视频中 openai 的大佬先告诉一个 gpt-4o 说等会有个可以看见世界的 AI 会和你对话，你可以和他交流，随后它启动了另外一个 gpt-4o，然后两个 gpt-4o 开始对话了，并且大佬还可以随时打断加入他们的对话。我的脑袋已经开始疼了，这个视频太炸裂了。这意味着，我是不是可以搞 3 个手机，搞一桌四川麻将了？？？

着装建议

在这里插入图片描述
视频中，这个大佬要准备面试了，问 gpt-4o 怎么穿着得体，然后 gpt-4o 告诉他带个帽子试试，结果带上 gpt-4o 就开始爽朗的笑了。。。，嗯，后面穿什么出门，估计可以让 gpt-4o 建议建议合不合适。。。

桌游助手

在这里插入图片描述
这个场景是两个人想玩石头剪刀布的游戏，然后让 gpt-4o 做裁判，然后就开始了，gpt-4o 说 1,2,3，亮出你们的爪子，然后判断谁输谁赢，好了，我似乎又找到了一个乐子。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述