音乐音频 | openSMILE提取音频需要掌握的知识

Begonia_cat

已于 2022-06-04 00:08:10 修改

阅读量1.4k

点赞数

分类专栏：音乐音频文章标签：音视频 python 语音识别

于 2022-06-04 00:07:21 首次发布

本文链接：https://blog.csdn.net/qq_44250700/article/details/125104255

版权

音乐音频专栏收录该内容

30 篇文章 42 订阅

订阅专栏

1、openSMILE只支持`WAV`格式的音频输入

2、openSMILE提取特征的要求

①可以在命令行操作。在命令行操作时要注意，需要cd切换到下载好的openSMILE的bin目录，提取代码在下面会讲到。

②也可以用python代码在pycharm或jupyter notebook中进行特征提取

3、openSMILE提取特征的关键代码

注意：以下操作均需要在下载好的openSMILE的bin目录下执行。如：cd 安装目录\bin

SMILExtract -C config_path -I input_path -O output_path

其中：
config_path在config文件夹中，具体用到哪个配置文件再切换到具体的目录。

例如：笔者选用的为C:\Users\24061\Desktop\MER数据集\DEAM\DEAM实验\opensmile-3.0-win-x64\opensmile-3.0-win-x64\config\is09-13/IS13_ComParE.conf
配置文件可以自己编写，用于提取需要的特征。

input_path为 wav 所在的路径。

例如笔者的input_path为：C:/Users/24061/Deskto/MER数据集/DEAM/DEAM_audio/MEMD_audio_wav/2.wav

output_path为：想要保存的文件位置与文件名。

例如笔者的output_path为：C:\Users\24061\Desktop\MER数据集\DEAM\DEAM实验/static_features.arff，表示将提取的特征保存到.arff文件里面（也可以存到.txt里，都可以）。

批量提取的时候，最好将特征与音频文件对应命名，单独保存到一个文件夹下，便于后续使用和分析。

4、openSMILE执行时会报的内容

MSG：正常报告
ERR：error，表示存在错误。

5、openSMILE各个配置文件的特征

2016-eGeMAPS特征集：88维特征
IS09_emotion（2009-InterSpeech Emotion Challenge特征集）：384维特征
IS10_paraling: 1582维特征
IS11_speaker_state: 4368维特征
IS12_speaker_trait: 6125维特征
IS13_ComParE: 6373维特征
ComParE_2016: 6373维特征

config/demo/demo1_energy：用于提取每帧音频的能量，参考例子