1、openSMILE只支持WAV
格式的音频输入
2、openSMILE提取特征的要求
①可以在命令行操作。在命令行操作时要注意,需要
cd
切换到下载好的openSMILE的bin
目录,提取代码在下面会讲到。
②也可以用python代码在pycharm或jupyter notebook中进行特征提取
3、openSMILE提取特征的关键代码
注意:以下操作均需要在下载好的openSMILE的bin
目录下执行。如:cd 安装目录\bin
SMILExtract -C config_path -I input_path -O output_path
其中:
config_path在config
文件夹中,具体用到哪个配置文件再切换到具体的目录。例如:笔者选用的为
C:\Users\24061\Desktop\MER数据集\DEAM\DEAM实验\opensmile-3.0-win-x64\opensmile-3.0-win-x64\config\is09-13/IS13_ComParE.conf
配置文件可以自己编写,用于提取需要的特征。input_path为 wav 所在的路径。
例如笔者的input_path为:
C:/Users/24061/Deskto/MER数据集/DEAM/DEAM_audio/MEMD_audio_wav/2.wav
output_path为:想要保存的文件位置与文件名。
例如笔者的output_path为:
C:\Users\24061\Desktop\MER数据集\DEAM\DEAM实验/static_features.arff
,表示将提取的特征保存到.arff
文件里面(也可以存到.txt
里,都可以)。
批量提取的时候,最好将特征与音频文件对应命名,单独保存到一个文件夹下,便于后续使用和分析。
4、openSMILE执行时会报的内容
MSG
:正常报告
ERR
:error,表示存在错误。
5、openSMILE各个配置文件的特征
2016-eGeMAPS特征集
:88维特征
IS09_emotion
(2009-InterSpeech Emotion Challenge特征集):384维特征
IS10_paraling
: 1582维特征
IS11_speaker_state
: 4368维特征
IS12_speaker_trait
: 6125维特征
IS13_ComParE
: 6373维特征
ComParE_2016
: 6373维特征
config/demo/demo1_energy
:用于提取每帧音频的能量,参考例子
参考文献:
openSMILE安装、批量提取特征与生成文件的处理
openSMILE提取音频特征(用于情感分类)
windows使用openSMILE提取音频特征详细示例及批量处理音频
OpenSMILE 提取音频特征
使用openSMILE提取MFCC简易教程(Mac)
利用openSMILE进行声音特征提取【有待学习】
使用opensmile提取音频的特征,得到特征向量,并扔进libsvm中进行分类训练测试【有待学习】
语音特征提取工具——opensmile
使用Opensmile提取特征
Opensmile提取相关的语音特征
linux系统提取MFCC特征
利用Java调用openSMILE批量处理音频文件
编写opensmile配置文件【有待学习】
编写opensmile配置文件1【有待学习】
openSMILE批处理【有待学习】