AI能“读懂人心”?Hume AI重磅发布EVI 3:精准捕捉人类情绪,情感计算碾压GPT-4o!

在人工智能的赛道上,智商”一直是各大 AI 巨头角逐的核心,然而,其他 AI 模型还在卷参数、拼逻辑时,初创公司 Hume AI 用全新发布的第三代语音交互模型 EVI 3,抛出了一个全新命题:AI 的新形态,或许不是更聪明的最强大脑,而是更懂人心的情感伴侣

image.png

过去十年,AI 的进化轨迹清晰可见:从语音识别到图像分类,从机器翻译到自动写作,技术突破始终围绕认知智能展开。

即便这些 AI 写出以假乱真的诗歌,那些智能的对话机器人,本质上仍然是披着智能外衣的逻辑机器。它们可以模拟人类的语言模式,却无法真正理解语言背后的情绪。

这种局限在一些真实场景中暴露无遗:客服机器人永远听不懂用户的愤怒,教育 AI 无法感知孩子的挫败感AI 的定位就像一个冰冷的机器人,智能却不智慧。

EVI 3 的诞生,正是要打破这种智能天花板。通过整合面部表情分析、语音情感识别、生理信号监测等多模态技术,这款情感计算引擎首次实现了对人类情绪的全息捕捉

EVI 3 不仅限于少数几种语音,而是可以通过提示创建任何你喜欢的声音和个性。

目前,平台已经创建 100,000 多种自定义语音,用户可以与其中任何一种进行交谈,无论声音如何,它都会以各种情绪或风格做出回应。

这种完全个性化的语音体验,就像一个不仅能读懂你,还能实时响应的情感伴侣。

EVI3

情感计算的三重突破

Hume AI 团队将 EVI 3 的核心优势总结为三大维度:深度、速度与温度

而 EVI3 的技术原理可以概括为以下几个核心:

  • 自回归模型:基于单一的自回归模型,同时处理文本(T)和语音V)标记。模型能将文本和语音输入统一处理,生成自然流畅的语音输出;

  • 系统提示:系统提示包含文本和语音标记,提供语言指令,塑造助手的说话风格,根据不同的提示生成不同的语音和风格;

  • 强化学习:基于强化学习方法,识别和优化任何人类声音的首选特质,实现高度个性化的声音生成;

  • 流式处理:EVI 3用流式处理技术,在对话延迟内生成语音响应,确保实时交互的流畅性。

图片

在测试中,系统对语音情绪的响应延迟低至 300 毫秒,这种毫秒级的共情能力,让 AI 首次具备了参与实时情感互动的可能,为更多场景打开了想象空间。

在与 OpenAI 的 GPT-4o 进行的盲测对比中,EVI 3 在同理心、表现力、自然度、中断处理、响应速度以及音频质量等方面获得了更高的平均评分。

图片

【EVI 3 和 GPT-4o 整体对话体验比较】

图片

【比较各种目标情绪和风格的表现】

图片

【情绪反应的自然性比较】

当然,两者的技术路线存在根本分歧,才造就了这种代际差距。

GPT-4o 沿袭了传统 NLP 模型的文本中心主义,其情感理解建立在语言模型的概率推断之上。

而 EVI 3 则构建了视觉-听觉-生理多模态融合架构,通过捕捉人类最本真的情感表达信号,实现了对情绪的第一性原理级理解。

诚然,EVI 3 开创了一个新的赛道。但面临的挑战同样巨大:如何建立高质量的情感数据集?如何平衡技术精度与隐私保护?如何定义 AI 情感服务的伦理边界?这些问题的答案还需要漫长的探索阶段。

而对于普通用户,我们或许正在见证一个温暖时代的到来。当 AI 不仅能回答问题,更能感知你的情绪人机关系或将迎来质的飞跃,一个全新的赛道或许已经开启。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值