音频领域常用的谱特征

本文详细列举一些谱特征的公式定义,做业务的时候,再也不用为脑海里捉襟见肘的特征发愁了!!!

关于谱特征,其广泛的使用于机器学习和深度学习中,在乐器分类,音色分析,端点侦测,情绪识别,语音活动检测等等各种业务中都有大量的实践应用。

这些谱特征都是频域数据各个维度高度抽象、总结、量化的结果,为业务后续研发提供思维的燃料,脑海里有没有很重要,至于烧不烧、怎么烧是另外一回事,但前提是先备好这些"燃料",幸运的是,audioFlux项目提供下面所列谱特征几乎所有的支持,感兴趣的小伙伴后续可以用其做不同的测试以加深理解。

谱特征

b 1 , b 2 b_1 , b_2 b1,b2 为频带bin边界, f k f_k fk单位Hz, s k s_k sk为频谱值,可以 magnitud spectrum或power spectrum

1. Spectral Centroid

μ 1 = ∑ k = b 1 b 2 f k s k ∑ k = b 1 b 2 s k \mu_1=\frac{\sum_{ k=b_1 }^{b_2} f_ks_k } {\sum_{k=b_1}^{b_2} s_k } μ1=k=b1b2skk=b1b2fksk

2. Spectral Spread

μ 2 = ∑ k = b 1 b 2 ( f k − μ 1 ) 2 s k ∑ k = b 1 b 2 s k \mu_2=\sqrt{\frac{\sum_{ k=b_1 }^{b_2} (f_k-\mu_1)^2 s_k } {\sum_{k=b_1}^{b_2} s_k } } μ2=k=b1b2skk=b1b2(fkμ1)2sk

3. Spectral Skewness

μ 3 = ∑ k = b 1 b 2 ( f k − μ 1 ) 3 s k ( μ 2 ) 3 ∑ k = b 1 b 2 s k \mu_3=\frac{\sum_{ k=b_1 }^{b_2} (f_k-\mu_1)^3 s_k } {(\mu_2)^3 \sum_{k=b_1}^{b_2} s_k } μ3=(μ2)3k=b1b2skk=b1b2(fkμ1)3sk

4. Spectral Kurtosis

μ 4 = ∑ k = b 1 b 2 ( f k − μ 1 ) 4 s k ( μ 2 ) 4 ∑ k = b 1 b 2 s k \mu_4=\frac{\sum_{ k=b_1 }^{b_2} (f_k-\mu_1)^4 s_k } {(\mu_2)^4 \sum_{k=b_1}^{b_2} s_k } μ4=(μ2)4k=b1b2skk=b1b2(fkμ1)4sk

5. Spectral Entropy


p k = s k ∑ k = b 1 b 2 s k p_k=\frac{s_k}{\sum_{k=b_1}^{b_2}s_k} pk=k=b1b2sksk

e n t r o p y 1 = − ∑ k = b 1 b 2 p k log ⁡ ( p k ) log ⁡ ( b 2 − b 1 ) entropy1= \frac{-\sum_{ k=b_1 }^{b_2} p_k \log(p_k)} {\log(b_2-b_1)} entropy1=log(b2b1)k=b1b2pklog(pk)

e n t r o p y 2 = − ∑ k = b 1 b 2 p k log ⁡ ( p k ) entropy2= {-\sum_{ k=b_1 }^{b_2} p_k \log(p_k)} entropy2=k=b1b2p

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值