有关opensmile的特征描述

本文详细介绍了音频数据中的6225个特征,包括116个低级描述符(LLDs)如能量、梅尔频率倒谱系数等,以及通过各种函数处理和衍生出的特征。这些特征用于音频信号的分析和处理,涉及技术领域如信号处理和机器学习。
摘要由CSDN通过智能技术生成

一、6225个特征

        图1所示内容为部分提取特征的属性值。

图1-1  txt文件部分截图

二、相关特征说明

表1-1 16个低级描述符(LLDs)的名称

序号

名称

描述

1

pcm_RMSenergy

信号帧均方根能量

2

mfcc

梅尔频率倒谱系数1-12

3

Pcm_zcr

时间信号的过零率(基于帧)

4

voiceProb

从ACF计算的发声概率

5

F0

从倒谱计算的基频

        附加到低级描述符名称的后缀_sma表示它们是通过窗口长度为3的移动平均滤波器进行平滑。附加到sma的后缀_de表示当前特征是低级描述符平滑后的一阶delta系数(微分)。

表1-2

序号

名称

描述

1

max

轮廓的最大值

2

min

轮廓的最小值

3

range

max- min

4

maxPos

最大值的绝对位置(以帧为单位)

5

minPos

最小值的绝对位置(以帧为单位)

6

amean

轮廓的算术平均值

7

linregc1

轮廓线性逼近的斜率(m)

8

linregc2

轮廓线性逼近的偏移量(t)

9

linregerrQ

计算的二次误差作为线性近似值和实际轮廓的差值

10

stddev

轮廓上的值的标准偏差

11

skewness

偏度(3阶矩)

12

kurtosis

峰度(4阶矩)

13

percentile1.0

轮廓的离群值鲁棒最小值,按1%百分位数表示

14

percentile99.0

轮廓的离群值鲁棒最大值,按99%百分位数表示

15

pctlrange0-1

由1%和99%的百分点的范围表示的离群值鲁棒信号范围“max-min”

16

upleveltime75

信号超过(75%*范围+min)的时间百分比

17

upleveltime90

信号超过(90%*范围+min)的时间百分比

注:举例说明特征如何组成?

        例1:该集包含的1582个特征是由34个低级描述符(LLDs)和34个相应的delta作为68个LLDs轮廓值,在此基础上应用21个函数得到1428个特征,另外,对4个基于音高的LLD及其4个delta系数应用了19个函数得到152个特征,最后附加音高(伪音节)的数量和总数输入的持续时间(2个特征)。

        例2:该集包含的4368个特征是由4个能量相关+50个频谱相关的低级描述符(LLDs)和54个相应的delta作为108个LLDs,在此基础上应用33个基本函数+平均值、最小值、最大值、标准差得到3996个特征;5个声音相关和5个对应的delta作为10个LLDs,在此基础上应用33个基本函数+二次平均、上升时长、下降时长得到360个特征;6个F0基本函数和对应的delta,12个特征。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我不是哆啦A梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值