在人工智能的赛道上,“智商”一直是各大 AI 巨头角逐的核心,然而,当其他 AI 模型还在卷参数、拼逻辑时,初创公司 Hume AI 用全新发布的第三代语音交互模型 EVI 3,抛出了一个全新命题:AI 的新形态,或许不是更聪明的最强大脑,而是更懂人心的“情感伴侣”。
过去十年,AI 的进化轨迹清晰可见:从语音识别到图像分类,从机器翻译到自动写作,技术突破始终围绕认知智能展开。
但即便这些 AI 能写出以假乱真的诗歌,那些“智能”的对话机器人,本质上仍然是披着智能外衣的逻辑机器。它们可以模拟人类的语言模式,却无法真正理解语言背后的情绪。
这种局限在一些真实场景中暴露无遗:客服机器人永远听不懂用户的愤怒,教育 AI 无法感知孩子的挫败感。AI 的定位就像一个冰冷的机器人,智能却不智慧。
EVI 3 的诞生,正是要打破这种“智能天花板”。通过整合面部表情分析、语音情感识别、生理信号监测等多模态技术,这款情感计算引擎首次实现了对人类情绪的全息捕捉。
EVI 3 不仅限于少数几种语音,而是可以通过提示创建任何你喜欢的声音和个性。
目前,平台已经创建 100,000 多种自定义语音,用户可以与其中任何一种进行交谈,无论声音如何,它都会以各种情绪或风格做出回应。
这种完全个性化的语音体验,就像一个不仅能读懂你,还能实时响应的情感伴侣。
EVI3
情感计算的三重突破
Hume AI 团队将 EVI 3 的核心优势总结为三大维度:深度、速度与温度。
而 EVI3 的技术原理可以概括为以下几个核心:
-
自回归模型:基于单一的自回归模型,同时处理文本(T)和语音V)标记。模型能将文本和语音输入统一处理,生成自然流畅的语音输出;
-
系统提示:系统提示包含文本和语音标记,提供语言指令,塑造助手的说话风格,根据不同的提示生成不同的语音和风格;
-
强化学习:基于强化学习方法,识别和优化任何人类声音的首选特质,实现高度个性化的声音生成;
-
流式处理:EVI 3用流式处理技术,在对话延迟内生成语音响应,确保实时交互的流畅性。
在测试中,系统对语音情绪的响应延迟低至 300 毫秒,这种毫秒级的共情能力,让 AI 首次具备了参与实时情感互动的可能,为更多场景打开了想象空间。
在与 OpenAI 的 GPT-4o 进行的盲测对比中,EVI 3 在同理心、表现力、自然度、中断处理、响应速度以及音频质量等方面获得了更高的平均评分。
【EVI 3 和 GPT-4o 整体对话体验比较】
【比较各种目标情绪和风格的表现】
【情绪反应的自然性比较】
当然,两者的技术路线存在根本分歧,才造就了这种代际差距。
GPT-4o 沿袭了传统 NLP 模型的“文本中心主义”,其情感理解建立在语言模型的概率推断之上。
而 EVI 3 则构建了“视觉-听觉-生理”多模态融合架构,通过捕捉人类最本真的情感表达信号,实现了对情绪的“第一性原理”级理解。
诚然,EVI 3 开创了一个新的赛道。但面临的挑战同样巨大:如何建立高质量的情感数据集?如何平衡技术精度与隐私保护?如何定义 AI 情感服务的伦理边界?这些问题的答案还需要漫长的探索阶段。
而对于普通用户,我们或许正在见证一个温暖时代的到来。当 AI 不仅能回答问题,更能感知你的情绪,人机关系或将迎来质的飞跃,一个全新的赛道或许已经开启。