从6秒音频就能分辨出你的长相?MIT研究最新型人工智能

声音可以揭示大量信息,麻省理工学院(MIT)最近的一项研究发现,训练有素的人工智能不仅可以从声音中识别出性别,年龄和种族,还可以猜出这个人的样子。这些“秘密”无法隐藏。

研究人员使用数百万个YouTube电影剪辑的数据集来自我训练Speech2Face的神经网络模型。从最终的结果来看,6秒的声音恢复脸部效果还不错。

Speech2Face模型的操作大致分为两部分。一个是语音编码器,它负责分析输入语音并预测相关的面部特征。另一种是面部解码器,它集成输入面部特征以产生图像。

麻省理工学院的研究小组指出,他们的目的不是准确地恢复演讲者的外表。 Speech2Face模型主要用于研究声音与外观之间的相关性。

从训练结果来看,Speech2Face更能识别性别,并且更适合高加索人和亚洲人。此外,30-40岁和70岁的声音命中率略高。除了基本的性别,年龄和种族,Speech2Face甚至可以猜测鼻子结构,嘴唇厚度和形状,遮挡和近似面部骨骼等面部特征。基本上,输入语音时间越长,AI精度就越高。

当然,人工智能的“听证会”也会出错。研究人员发现,它会识别出一个没有经历过女性声音变化的小男孩,判断一些发言者的口音,并混合年龄。

fun88研究人员指出,Speech2Face的局限性部分是由于数据集扬声器缺乏种族多样性,这也使得识别黑色声音的能力降低。至于他们对这个AI模型的应用,有一个非常可爱的想象力:只是几句话,在未来,Animoji和Gboard等功能可能能够根据声音生成你的卡通化身。

转载于:https://my.oschina.net/u/3906919/blog/3060685

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值