python音乐可视化效果_python 处理音频并提取特征可视化

最新推荐文章于 2024-04-12 12:22:06 发布

weixin_39611930

最新推荐文章于 2024-04-12 12:22:06 发布

阅读量539

点赞数

文章标签： python音乐可视化效果

]

光谱衰减：

它是信号形状的度量。librosa.feature.spectral_rolloff计算信号中每帧的滚降系数：

In [16]:#计算光谱衰减：

spectral_rolloff = librosa.feature.spectral_rolloff(x+0.01, sr=sr)[0]

plt.figure(figsize=(14,5))

librosa.display.waveplot(x, sr=sr, alpha=0.4)

plt.plot(t, normalize(spectral_rolloff), color='r')

[

]

梅尔频率倒谱系数：

声音信号是连续变化的，为了将连续变化信号简化，我们假设在一个短时间尺度内，音频信号不发生改变。因此将信号以多个采样点集合成一个单位，称为'''讯框'''。一个讯框多为20-40毫秒，如果讯框长度更短，那每个讯框内的采样点将不足以做出可靠的频谱计算，但若长度太长，则每个讯框信号会变化太大。

预强化的目的就是为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分。并且能突显高频的共振峰。

由于信号在时域上的变化通常很难看出信号的特性，所以通常透过傅里叶变换将它变换成频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。

由于能量频谱中还存在大量的无用讯息，尤其人耳无法分辨高频的频率变化，因此让频谱通过梅尔滤波器。梅尔滤波器，也就是一组20个非线性分布的三角带通滤波器（Triangular Bandpass Filters），能求得每一个滤波器输出的对数能量。必须注意的是：这 20 个三角带通滤波器在'''梅尔刻度'''的频率上是平均分布的。梅尔频率代表一般人耳对于频率的感受度，由此也可以看出人耳对于频率 f 的感受是呈对数变化的。

MFCC特征在加性噪声的情况下并不稳定，因此在语音识别系统中通常要对其进行归一化处理(normalise)以降低噪声的影响。一些研究人员对MFCC算法进行修改以提升其鲁棒性，如在进行DCT之前将log-mel-amplitudes提升到一个合适的能量(2到3之间)，以此来降低低能量成分的影响。

weixin_39611930

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python音乐可视化效果_python 处理音频并提取特征可视化

]光谱衰减：它是信号形状的度量。librosa.feature.spectral_rolloff计算信号中每帧的滚降系数：In [16]:#计算光谱衰减：spectral_rolloff = librosa.feature.spectral_rolloff(x+0.01, sr=sr)[0]plt.figure(figsize=(14,5))librosa.display.waveplot(x, ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。