感知喜怒哀乐：用深度学习构建声音情感传感器

最新推荐文章于 2023-05-09 22:03:30 发布

「已注销」

最新推荐文章于 2023-05-09 22:03:30 发布

阅读量819

点赞数 3

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/101951805

版权

640?wx_fmt=jpeg

全文共2702字，预计学习时长5分钟

人类的表达是复杂多面的。例如，说话者不仅通过语言进行交流，还会用到韵律、语调、面部表情和肢体语言。这就是我们更喜欢举行现场的商务会议而不是电话会议，以及在选择电话会议或发短信时会优先考虑电话会议的原因。人们离得越近，通信带宽就越大。

语音识别软件近年来得到快速发展。这项技术现在可以很好地识别语音，并将它们拼接在一起来重现口语单词和句子。但是，简单地将语音翻译成文本，并不能完全概括说话者的信息。除面部表情和肢体语言外，与音频相比，文本捕捉情感意图的能力非常有限。

笔者最初选择构建一个声音情感传感器，是因为它似乎是一个妙趣横生的项目。尽管反复思量，但还是意识到，通过音频感知情感有一些非常有趣的应用。想象一下，如果你的智能家居设备可以播放与你的情绪相符合的歌曲，例如在悲痛难耐时播放振奋人心的歌曲；客户服务部门可以通过情绪检测来培训员工，或者衡量客户是否在服务呼叫过程中变得更满意。

数据

本文用以下三种数据集来构建情感分类器：RAVDESS（https://smartlaboratory.org/ravdess），TESS（https://tspace.library.utoronto.ca/handle/1807/24487）和SAVEE（http://kahlan.eps.surrey.ac.uk/savee/Download.html），它们都免费向公众开放（SAVEE的注册过程很简单）。

这些数据集包含七种常见类型的音频文件：中立、快乐、悲伤、愤怒、恐惧、厌恶和惊讶。笔者共听了由30位男女演员制作的4,500个标记音频文件，总时长超过160分钟。在这些文件中，男女演员会通过一些短语来表达特定的情感意图。

640?wx_fmt=png