介绍一种音频信号分类方法

最新推荐文章于 2025-02-14 17:12:15 发布

audiocool

最新推荐文章于 2025-02-14 17:12:15 发布

阅读量8.5k

点赞数 2

分类专栏：音频信号分类文章标签：算法音频分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/audio_algorithm/article/details/78709422

版权

本文介绍了音频分类的一种方法，通过结合子带音调个数比与频谱倾斜度来区分语音和音乐信号。首先，分析了不同音频类型在子带音调分布上的差异，并提出利用频谱倾斜度特征来弥补单纯子带音调区分的不足。接着详细阐述了子带音调个数比的计算和平滑处理，以及频谱倾斜度的估算和判断标准。最后，提出使用平滑技术来处理分类过程中的单帧误判问题，提高分类准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

能用来区分语音和音乐信号的音频特征有很多种，如感觉特性、能量、功率谱和Mel频标倒谱(MFCC)系数,能量、平均过零率、基频和功率谱峰值等。以下介绍一种基于子带音调个数比与频谱倾斜度相结合的区分方法。

一、基本原理

不同类型的音频，其音调分量在各个子带的分布有所不同。语音的音调分量绝大部分分布在低频处，而音乐的音调分量在各个子带的分布则相对较均匀。利用该特性可区分音乐与语音信号。

由于某些敲打式的突变音乐信号，其音调分布特性较接近于语音的音调分布特性。因此仅用子带音调分量区分准确度不高。为解决这一问题，引入频谱倾斜度特征。一般来说，语音与音乐的平均频谱倾斜度主要分布在[0.650，0.995]的范围内，但对于一些敲打式的突变音乐信号，其频谱倾斜度的值很小，小于0.650。另外，有些音乐频谱倾斜度的值可达到很高，大于0.995。该特性能较好的区分子带音调分量不能区分的突变音乐信号。

二、方法实现

2.1子带音调个数比

对信号进行分帧处理，帧长为N。用汉明窗对每帧输入时域信号进行加窗，然后对加窗信号进行FFT变换，并计算其功率密度谱X(k)，x(k)也称为频谱系数。由于FFT是关于N12对称的N/2，因此只需计算前N/2个频谱。

将频域划分为4个子带SBi，分别为 [0，N/16]，[N/16，N/8]，[N/8，N/4]和[N/4，N/2]。当频谱系数X(k)符合X(k-1)<X(k)<

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。