【AI学习】聊两句昨夜OpenAI的GPT-4o

蹭个热点,聊两句昨夜的大事件——OpenAI发布GPT-4o,我看到和想到的一点东西。

首先是端到端方法,前面关于深度学习的文章,对端到端的重要性做了一些学习,对端到端这个概念有了一些理解。正如Richard Sutton在《苦涩的教训》中的经典判断,再次重温一遍,“The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin.(从70年的人工智能研究中可以学到的最大教训是,利用计算的通用方法最终是最有效的,而且在很大程度上是有效的)。”

引用一段话,来看这次OpenAI的端到端改进:

”根据OpenAI发布在官网的最新博客文章显示,在GPT-4o之前,我们使用语音模式与ChatGPT对话,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式是由三个独立的模型组成的流水线:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单的模型将该文本再转换回音频。这个过程意味着主要的智能来源,GPT-4,丢失了很多信息,它不能直接观察语调、多个说话者或背景噪音,也不能输出笑声、歌唱或表达情感。

GPT-4o,是单独训练的新模型,可以端到端地处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。”

这里必然有一些新的token化的技术来完成多模态的统一,但是OpenAI之前就有Whisper的技术积累,应该不是困难事。

我在想,这种端到端的技术,肯定会带来一些新的好处,比如模型性能和处理速度的提升。最近在读一些有关大脑的书籍,人类做决策,不是单纯的逻辑推理,同时也依靠情绪,假如大脑中有关情绪感知的部位受损,那人就将变得犹豫不决而丧失决策能力。过去语音转化为文字丢失了很多情感信息,GPT-4o的端到端训练,是否就可能在模型中产生了类似人脑的情绪网络,从而大大提升决策处理速度的提升。情感能力,不仅是技术应用的需要,也是技术本身的需要。

当然,最困难的不是技术,而是产品能力,能够把这些显而易见的技术打造为亮眼的产品。

在这里插入图片描述

其次,解决了图片中生成文字的问题,这个真的好难。
先说个笑话,之前,有知名公众号的文章,使用这样一个文生图的提示: “这幅插画描绘了一颗由半透明玻璃制成的心,矗立在惊涛骇浪中的基座上,一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字‘Find the universe with you ’”。然后,我也用这个提示尝试了一下,生成的图片与这个公众号的图片基本一致,就是图片中缺了那行醒目的文字。后来我才知道,在图片中生成文字技术上非常困难。试想一下,如果能够严格遵循文字的指令生成图片,一定需要模型能够对文字和图片进行深层次的语义理解,然后在语义层面彻底打通文字的语义和图片的语义,这是更高层次的统一。所以说,OpenAI解决了图片的文字生成问题,语义通信这件事就更加触手可及了!

另外,利用几张图像进行3D重建,这个功能好强大,感觉在很多简单应用已经可以替代SLAM、NeRF等,接下来,多模态技术的进一步发展,原来的热门技术需要重新思考对待了。

最亮眼的还是应用,OpenAI马上就要占领超级接口了吧。
在这里插入图片描述

昨晚的主持人Mira,真的好美,女神!

  • 24
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值