OpenSmile介绍和使用

最新推荐文章于 2024-03-13 15:35:49 发布

Janie.Wei

最新推荐文章于 2024-03-13 15:35:49 发布

阅读量6.1k

点赞数 6

分类专栏：语音信号处理 python 深度学习文章标签： python 人工智能语音特征低级描述符LLDs

本文链接：https://blog.csdn.net/weijie_home/article/details/118754462

版权

python 同时被 3 个专栏收录

18 篇文章

订阅专栏

深度学习

18 篇文章

订阅专栏

语音信号处理

5 篇文章

订阅专栏

1. OpenSmile 下载安装

官网下载：openSMILE - audEERING

windows下解压就可以使用

2. OpenSmile用途

提取声音信号的各类音频特征，主要是Low-Level Descriptors (LLDs)

3. OpenSmile使用

3.1 Windows下直接使用

通过命令行形式运行提取音频特征的。
① 先切换到处理文件SMILExtract_Release.exe所在的目录下
② 再使用语句：
SMILExtract_Release -C 配置文件 -I “要处理的音频” -O “要保存特征向量的路径及文件名”

---->控制输出数据格式 (参数)

=============================
-instname <string> 通常是输入文件的名称保存在CSV和ARFF输出的首列。默认是"unknow"
=============================
-lldcsvoutput, -D <filename>  启动LLD帧向输出到CSV格式文件
-appendcsvlld <0/1> 设为1代表添加到已有CSV文件文末，默认0覆盖
-timestampcsvlld  <0/1> 设为0禁止把时间步输出到CSV第二列，默认为1
-headercsvlld <0/1> 设为0禁止把标题输入到CSV，默认为1
=============================
-lldhtkoutput <filename> 启动LLD帧向输出到HTK格式文件
=============================
-lldarffoutput, -D <filename> 启动LLD帧向输出到ARFF格式文件
-appendarfflld <0/1> 设为1代表添加到已有ARFF文件文末，默认0覆盖
-timestamparfflld <0/1> 设为0禁止把时间步输出到ARFF第二列，默认为1
-lldarfftargetsfile <file> 指定配置包含定义目标域（类）的文，默认为: shared/arff_targets_conf.inc
=============================
-output, -O <filename> 默认输出选项. ARFF格式，存放特征汇总
-appendarff <0/1> 设为0代表不添加到已有ARFF文件文末，默认1添加 
-timestamparff <0/1> 设为1把时间步输出到ARFF第二列，默认为0
-arfftargetsfile <file>指定配置包含定义目标域（类）的文，默认为: shared/arff_targets_conf.inc
=============================
-csvoutput <filename> 默认输出选项. CSV格式，存放特征汇总
-appendcsv <0/1> 设为0代表不添加到已有CSV文件文末，默认1
-timestampcsv <0/1> 设为0禁止把时间步输出到CSV第二列，默认为1
-headercsv <0/1> 设为0禁止把标题输入到CSV，默认为1
=============================
-htkoutput <filename> 输出特征汇总（函数）到HTK格式文件

3.2 python中使用

3.2.1 单个音频文件LLD特征提取

1. 设置OpenSmile路径

2. 选择并设置使用的配置文件

3. 通过系统命令提取相关特征

import os

infilename = 'Ses01F_impro01_F002.wav'
outfilename =  'Ses01F_impro01_F002.csv'

#设置OpenSmile路径
exe_opensmile = 'D:/opensmile-2.3.0/bin/Win32/SMILExtract_Release'
#选择并设置使用的配置文件
path_config = 'D:/opensmile-2.3.0/config/ComParE_2016.conf'

#设置系统命令
opensmile_options = '-configfile ' + path_config + ' -appendcsvlld 0 -timestampcsvlld 1 -headercsvlld 1'
outputoption = '-lldcsvoutput'
opensmile_call =exe_opensmile + ' ' + opensmile_options + ' -inputfile ' + infilename + ' ' + outputoption + ' ' + outfilename
#执行
os.system(opensmile_call)

3.2.2 批处理

import os
from multiprocessing.dummy import Pool as ThreadPool

# Set your opensmile Extracter and path here
exe_opensmile = 'D:/opensmile-2.3.0/bin/Win32/SMILExtract_Release'
path_config = 'D:/opensmile-2.3.0/config/ComParE_2016.conf'

# Set your data path and output path here
data_path = "E:/Dataset/IEMOCAP_full_release/allwave"
save_path = './audio_features_ComParE2016/'  # output folder

# Extractor set-ups
opensmile_options = '-configfile ' + path_config + ' -appendcsvlld 0 -timestampcsvlld 1 -headercsvlld 1'
outputoption = '-lldcsvoutput'

def feature_extract(fn):
  infilename = addr_files + '/'+fn
  instname = os.path.splitext(fn)[0]
  outfilename = save_path + '/' + instname + '.csv'
  
  opensmile_call = exe_opensmile + ' ' + opensmile_options + ' -inputfile ' + infilename + ' ' + outputoption \
                   + ' ' + outfilename + ' -instname ' + instname + ' -output ?'
  os.system(opensmile_call)


for root, dirs, files in os.walk(data_path):
    for dir in dirs:
      files = os.listdir(data_path+'/'+dir)
      addr_files=data_path+'/'+dir

      pool = ThreadPool()
      pool.map(feature_extract, files)
      pool.close()
      pool.join()