感知喜怒哀乐:用深度学习构建声音情感传感器

640?wx_fmt=jpeg

全文共2702字,预计学习时长5分钟

640?wx_fmt=png

人类的表达是复杂多面的。例如,说话者不仅通过语言进行交流,还会用到韵律、语调、面部表情和肢体语言。这就是我们更喜欢举行现场的商务会议而不是电话会议,以及在选择电话会议或发短信时会优先考虑电话会议的原因。人们离得越近,通信带宽就越大。

语音识别软件近年来得到快速发展。这项技术现在可以很好地识别语音,并将它们拼接在一起来重现口语单词和句子。但是,简单地将语音翻译成文本,并不能完全概括说话者的信息。除面部表情和肢体语言外,与音频相比,文本捕捉情感意图的能力非常有限。

笔者最初选择构建一个声音情感传感器,是因为它似乎是一个妙趣横生的项目。尽管反复思量,但还是意识到,通过音频感知情感有一些非常有趣的应用。想象一下,如果你的智能家居设备可以播放与你的情绪相符合的歌曲,例如在悲痛难耐时播放振奋人心的歌曲;客户服务部门可以通过情绪检测来培训员工,或者衡量客户是否在服务呼叫过程中变得更满意。

数据

本文用以下三种数据集来构建情感分类器:RAVDESS(https://smartlaboratory.org/ravdess),TESS(https://tspace.library.utoronto.ca/handle/1807/24487)和SAVEE(http://kahlan.eps.surrey.ac.uk/savee/Download.html),它们都免费向公众开放(SAVEE的注册过程很简单)。

这些数据集包含七种常见类型的音频文件:中立、快乐、悲伤、愤怒、恐惧、厌恶和惊讶。笔者共听了由30位男女演员制作的4,500个标记音频文件,总时长超过160分钟。在这些文件中,男女演员会通过一些短语来表达特定的情感意图。

640?wx_fmt=png

提供SAVEE数据集采样的男演员

特征提取

接下来,必须找到可以从音频中提取的有用功能。最初笔者想过使用短时傅里叶变换来提取频率信息。然而,相关研究表明,傅立叶变换在语音识别应用方面存在很大缺陷。其原因是,傅立叶变换虽然是声音的一种很好的物理表示,但并不代表人类对声音的感知。

640?wx_fmt=png

并行音频波形。 在这种形式下,它对于分类是毫无用处的。

从音频中提取特征的更佳方法是使用梅尔频率倒谱系数ÿ

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值