揭秘 ChatGPT-4o:AI 交互的新时代来了-下

    北京时间5月14日凌晨,OpenAI 最新发布了ChatGPT-4o,这无疑是人工智能领域的一次革命性飞跃。o代表Omnimodel(代表全能模型之意),ChatGPT-4o 旨在提供更加自然和高效的人机交互体验。

    上篇介绍了 ChatGPT-4o 的新特性,本篇将进行分析,并与其前身 ChatGPT-4 进行比较。

ChatGPT-4o VS ChatGPT-4

1、性能方面:

    在比较困难的 prompt 集上(特别是编码方面):GPT-4o 相比于 OpenAI 之前的最佳模型,性能提升幅度尤其显著。 具体来说,在多项基准测试中,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上实现了新高。

    从上图我们可看出GPT-4o在推理方面有明显提升:GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。此外,GPT-4o 在 5-shot MMLU(常识问题)上创下了 87.2% 的新高分。(注:Llama3 400b 还在训练中)

2、多语言方面:

    在所有语言基准测试中,GPT-4o 都比 GPT-4 更强。 ChatGPT-4o 在多语言支持方面也有显著提升,特别是在非英语语言的处理上。目前能支持50种语言,改进后的分词器能够更好地压缩和处理多种语言,使得 ChatGPT-4o 成为一个真正的多语言智能助手。 这 20 种语言被选为新分词器跨不同语系压缩的代表:

    使用M3Exam 进行基准测试,M3Exam基准测试既是多语言评估基准也是视觉评估基准,由来自多个国家 / 地区的标准化测试多项选择题组成,并包括图形、图表。

3、视觉理解方面:

    GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot,其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。

3、交互能力方面:

  • 极佳的多模态交互能力,包括语音、视频,以及屏幕共享。

  • 可以实时识别和理解人类的表情,文字,以及数学公式。

  • 交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。

官网案例:制作催眠曲

4、实时响应:

    与前代模型相比,ChatGPT-4o的响应速度显著提高。体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。但ChatGPT-4o的平均响应时间为 320 毫秒,最短响应时间为 232 毫秒,几乎与人类的反应时间相当。这意味着用户在与 ChatGPT-4o 互动时,几乎不需要等待,体验更加流畅。

    与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍,且可以在对话中实时打断AI,增加信息或开启新话题。

    之所以有如此显著提高,主要归功于 GPT-4o 的end-to-end模型,这意味着可将所有输入(文本、视觉和音频)和输出都由同一神经网络进行处理。

    之前的GPT语音响应模式是由三个独立模型组成的 pipeline:

  1. 音频->文本1:一个简单模型将音频转录为文本,

  2. 文本1->文本2:GPT-3.5 或 GPT-4 接收文本并输出文本

  3. text2 ->音频:用一个简单模型将该文本转换回音频。

    经历上述3 个阶段无疑会导致巨大的延迟。 OpenAI 还发现上述方法会使 GPT-4 丢失大量信息,例如模型无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。所以,OpenAI 在GPT-4o 上训练了一个跨文本、视觉和音频端到端地新模型。

    从技术角度来看,OpenAI 已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究,但总体来说其实是在解决一个常见的数据和系统优化问题。

展望AI未来

    随着ChatGPT-4o的发布,人工智能技术又向前迈进了一大步。多模态交互、情感识别和实时响应等特性的引入,不仅提升了用户体验,也拓宽了 AI 的应用领域。在未来,模型能力的提升将实现更自然、实时的语音对话,并能够通过实时视频与 ChatGPT 进行对话。例如,用户可以向 ChatGPT 展示一场现场体育比赛,并要求它解释规则。

    此外,AI 技术的进步还将推动各行各业的变革。例如,在医疗领域,AI 可以辅助医生进行诊断和治疗;在教育领域,AI可以提供个性化的学习体验;在商业领域,AI 可以优化运营和决策过程。总的来说,AI的未来充满了无限可能,ChatGPT-4o的发布只是一个开始,让我们期待更多令人惊叹的创新和突破。

  • 23
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值