声音可以揭示大量信息,麻省理工学院(MIT)最近的一项研究发现,训练有素的人工智能不仅可以从声音中识别出性别,年龄和种族,还可以猜出这个人的样子。这些“秘密”无法隐藏。
研究人员使用数百万个YouTube电影剪辑的数据集来自我训练Speech2Face的神经网络模型。从最终的结果来看,6秒的声音恢复脸部效果还不错。
Speech2Face模型的操作大致分为两部分。一个是语音编码器,它负责分析输入语音并预测相关的面部特征。另一种是面部解码器,它集成输入面部特征以产生图像。
麻省理工学院的研究小组指出,他们的目的不是准确地恢复演讲者的外表。 Speech2Face模型主要用于研究声音与外观之间的相关性。
从训练结果来看,Speech2Face更能识别性别,并且更适合高加索人和亚洲人。此外,30-40岁和70岁的声音命中率略高。除了基本的性别,年龄和种族,Speech2Face甚至可以猜测鼻子结构,嘴唇厚度和形状,遮挡和近似面部骨骼等面部特征。基本上,输入语音时间越长,AI精度就越高。
当然,人工智能的“听证会”也会出错。研究人员发现,它会识别出一个没有经历过女性声音变化的小男孩,判断一些发言者的口音,并混合年龄。
fun88研究人员指出,Speech2Face的局限性部分是由于数据集扬声器缺乏种族多样性,这也使得识别黑色声音的能力降低。至于他们对这个AI模型的应用,有一个非常可爱的想象力:只是几句话,在未来,Animoji和Gboard等功能可能能够根据声音生成你的卡通化身。