音乐音频 | openSMILE提取音频需要掌握的知识

1、openSMILE只支持WAV格式的音频输入

2、openSMILE提取特征的要求

①可以在命令行操作。在命令行操作时要注意,需要cd切换到下载好的openSMILE的bin目录,提取代码在下面会讲到。

②也可以用python代码在pycharm或jupyter notebook中进行特征提取

3、openSMILE提取特征的关键代码

注意:以下操作均需要在下载好的openSMILE的bin目录下执行。如:cd 安装目录\bin

SMILExtract -C config_path -I input_path -O output_path

其中:
config_pathconfig文件夹中,具体用到哪个配置文件再切换到具体的目录。

例如:笔者选用的为C:\Users\24061\Desktop\MER数据集\DEAM\DEAM实验\opensmile-3.0-win-x64\opensmile-3.0-win-x64\config\is09-13/IS13_ComParE.conf
配置文件可以自己编写,用于提取需要的特征。

input_path为 wav 所在的路径。

例如笔者的input_path为:C:/Users/24061/Deskto/MER数据集/DEAM/DEAM_audio/MEMD_audio_wav/2.wav
在这里插入图片描述

output_path为:想要保存的文件位置与文件名。

例如笔者的output_path为:C:\Users\24061\Desktop\MER数据集\DEAM\DEAM实验/static_features.arff,表示将提取的特征保存到.arff文件里面(也可以存到.txt里,都可以)。
在这里插入图片描述

批量提取的时候,最好将特征与音频文件对应命名,单独保存到一个文件夹下,便于后续使用和分析。

4、openSMILE执行时会报的内容

MSG:正常报告
ERR:error,表示存在错误。

5、openSMILE各个配置文件的特征

2016-eGeMAPS特征集:88维特征
IS09_emotion(2009-InterSpeech Emotion Challenge特征集):384维特征
IS10_paraling: 1582维特征
IS11_speaker_state: 4368维特征
IS12_speaker_trait: 6125维特征
IS13_ComParE: 6373维特征
ComParE_2016: 6373维特征

config/demo/demo1_energy:用于提取每帧音频的能量,参考例子

参考文献:

openSMILE安装、批量提取特征与生成文件的处理
openSMILE提取音频特征(用于情感分类)

windows使用openSMILE提取音频特征详细示例及批量处理音频
OpenSMILE 提取音频特征
使用openSMILE提取MFCC简易教程(Mac)

利用openSMILE进行声音特征提取【有待学习】
使用opensmile提取音频的特征,得到特征向量,并扔进libsvm中进行分类训练测试【有待学习】
语音特征提取工具——opensmile
使用Opensmile提取特征
Opensmile提取相关的语音特征

opensmile 3.0使用

linux系统提取MFCC特征
利用Java调用openSMILE批量处理音频文件

编写opensmile配置文件【有待学习】
编写opensmile配置文件1【有待学习】

openSMILE批处理【有待学习】

OpenSmile提取eGeMAPS 特征集【语音】

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值