有关opensmile的特征描述

我不是哆啦A梦

于 2023-10-19 21:31:32 发布

阅读量263

点赞数 2

分类专栏：信号处理特征提取机器学习文章标签：人工智能信号处理机器学习算法

本文链接：https://blog.csdn.net/qq_57074184/article/details/133935220

版权

信号处理同时被 3 个专栏收录

12 篇文章

订阅专栏

机器学习

5 篇文章

订阅专栏

特征提取

3 篇文章

订阅专栏

本文详细介绍了音频数据中的6225个特征，包括116个低级描述符（LLDs）如能量、梅尔频率倒谱系数等，以及通过各种函数处理和衍生出的特征。这些特征用于音频信号的分析和处理，涉及技术领域如信号处理和机器学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、6225个特征

图1所示内容为部分提取特征的属性值。

二、相关特征说明

表1-1 16个低级描述符（LLDs）的名称

序号	名称	描述
1	pcm_RMSenergy	信号帧均方根能量
2	mfcc	梅尔频率倒谱系数1-12
3	Pcm_zcr	时间信号的过零率（基于帧）
4	voiceProb	从ACF计算的发声概率
5	F0	从倒谱计算的基频

附加到低级描述符名称的后缀_sma表示它们是通过窗口长度为3的移动平均滤波器进行平滑。附加到sma的后缀_de表示当前特征是低级描述符平滑后的一阶delta系数（微分）。

表1-2

序号	名称	描述
1	max	轮廓的最大值
2	min	轮廓的最小值
3	range	max- min
4	maxPos	最大值的绝对位置（以帧为单位）
5	minPos	最小值的绝对位置（以帧为单位）
6	amean	轮廓的算术平均值
7	linregc1	轮廓线性逼近的斜率（m）
8	linregc2	轮廓线性逼近的偏移量（t）
9	linregerrQ	计算的二次误差作为线性近似值和实际轮廓的差值
10	stddev	轮廓上的值的标准偏差
11	skewness	偏度（3阶矩）
12	kurtosis	峰度（4阶矩）
13	percentile1.0	轮廓的离群值鲁棒最小值，按1％百分位数表示
14	percentile99.0	轮廓的离群值鲁棒最大值，按99％百分位数表示
15	pctlrange0-1	由1％和99％的百分点的范围表示的离群值鲁棒信号范围“max-min”
16	upleveltime75	信号超过（75％*范围+min）的时间百分比
17	upleveltime90	信号超过（90％*范围+min）的时间百分比

注：举例说明特征如何组成？

例1：该集包含的1582个特征是由34个低级描述符（LLDs）和34个相应的delta作为68个LLDs轮廓值，在此基础上应用21个函数得到1428个特征，另外，对4个基于音高的LLD及其4个delta系数应用了19个函数得到152个特征，最后附加音高（伪音节）的数量和总数输入的持续时间（2个特征）。

例2：该集包含的4368个特征是由4个能量相关+50个频谱相关的低级描述符（LLDs）和54个相应的delta作为108个LLDs，在此基础上应用33个基本函数+平均值、最小值、最大值、标准差得到3996个特征；5个声音相关和5个对应的delta作为10个LLDs，在此基础上应用33个基本函数+二次平均、上升时长、下降时长得到360个特征；6个F0基本函数和对应的delta，12个特征。