AI听6秒语音就能知道你的长相

最新推荐文章于 2024-09-17 16:52:57 发布

weixin_34319999

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量223

点赞数

文章标签：人工智能

原文链接：https://juejin.im/post/5cff5f25e51d455d6d5357ec

版权

声音可以暴露很多讯息，麻省理工学院（MIT）最近一项研究发现，经过训练的 AI 不仅能从声音辨别出性别、年龄和种族，甚至能猜出这人大概长什么样子。这些「秘密」都藏不住了。研究人员用一个由数百万视频影片剪辑组成的数据集，自我训练一名为 Speech2Face 的神经网络模型。从最终结果来看，6 秒语音还原人脸的效果还算不错。

Speech2Face 模型的运作大概分为两部分，一是语音编码器，负责分析输入语音，预测相关的脸部特征；另一个则是脸部译码器，整合输入的脸部特征产生图像。MIT 研究团队指出，他们目的不是为了准确还原说话者的模样，Speech2Face 模型主要是为了研究声音跟相貌之间的关联性。从训练结果看，Speech2Face 较能辨识性别，对白种人和亚洲人也较能分辨，另外对 30~40 岁和 70 岁的年龄段声音命中率稍微高一些。

除了比较基础的性别、年龄和种族，Speech2Face 甚至能猜中一些脸部特征，比如说鼻子结构、嘴唇厚度和形状、咬合情况，以及大概的脸部骨架。基本上输入的语音时间越长，AI 准确度会越高。当然 AI 的「听觉」也会出错。研究人员发现，它会将未经历变声期的小男孩辨识为女性，判断错误一些说话者的口音，也会搞混年纪……这一点完全可以理解，毕竟声音还是会骗人的，夜夜伴你入睡的萌妹奶音主播，实际上说不定是个汉子。

研究人员指出，Speech2Face 的局限性，部分原因来自数据集的说话者本身种族多样性不够丰富，这也导致它辨认黑人声音的能力比较弱。至于他们对这个 AI 模型的应用，有个很可爱的想象：只需要说几句话，未来 Animoji 和 Gboard 等功能或许就能根据声音生成你的卡通头像。

不管你信或不信，藏在我们声音的秘密都正被开发研究，投入各式各样的场景应用。卡内基美隆大学计算器副教授 Rita Singh 也主导过一项类似研究，能从声音猜测说话者的年龄、身高、体重、环境噪音和说话时的空间类型等信息。她认为声音藏着丰富而独特的信息，「就像你的 DNA 或指纹」。这项技术后来升级成跟 Speech2Face 相似的语音分析系统，还原人脸的准确度达到 60%~70%，目前正被美国海岸警卫队用于缩小调查范围找到恶作剧报警者。据称，他们每年会接到约 150 通恶作剧电话，这被视为浪费警力，甚至会遭到刑事诉讼。目前汇丰、渣打、摩根大通等银行都在用「声纹」当作身分辨识方式（voice ID）之一，可检测你的账户是否被盗。大都会人寿保险公司的客服中心，会用一套 AI 系统帮忙识别客户的情绪和感受，平均准确率达到 82%；一些保险公司甚至会藉此判断来电者有没有骗保意图──如果说话时出现微小停顿，很可能就是在提供虚假信息。除此之外，经过训练的 AI 还被一些公司用于招募新人，从应试者的说话模式分析性格特征，判断是否适合招募的职缺。相关AI信息内容：FUN88公益台 openbsd.org.tw/

丰田汽车曾经在 2017 年 CES 大会展出 Concept-i 概念车型，车内配备红外线镜头、传感器、车载语音识别和对话系统，它们将协助判断司机是不是处于疲劳驾驶状态并提醒。跟 MIT 的卡通头像相比，Singh 教授的想法似乎要更长远且宏大。她希望，有朝一日语音识别技术可用于远程确诊帕金森氏症等疾病。目前有研究发现，冠状动脉疾病患者声音会留有不同的频率标志。未来，「听声看病」说不定也会跟「听声辨脸」一样成真。

转载于:https://juejin.im/post/5cff5f25e51d455d6d5357ec