这次的GPT40是一个结合文本、语音、图像三者的多模态大模型。
在语音方面,ChatGPT-40支持端到端的语音交互,跟之前先将语音识别成文字,再输入GPT的模式有很大不同。不仅时延下降,模型的理解能力和输出效果还有很大的提升。比如说,chatGPT会笑了,比如说,chatGPT,会唱歌了!!!!还可以和他语音聊天,这也是笔者最喜欢的一个功能
在文字方面,ChatGPT-40实现了真正的降本增效。简单的说,就是更便宜了。
而图片方面,也很逆天。看起来ChatGPT-40支持文生图和图生图,而且不需要特别复杂的操作就能完成很多工作。比如把两个人的图片P成海报。让它画一张可爱的猫猫图。