研1日记16

最新推荐文章于 2024-10-17 08:00:29 发布

qq_55033799

最新推荐文章于 2024-10-17 08:00:29 发布

阅读量328

点赞数 1

文章标签： python 机器学习开发语言

本文链接：https://blog.csdn.net/qq_55033799/article/details/142484772

版权

1. 音频信号处理
对每个wav文件进行如下处理：

y, sr = librosa.load(file_path, sr=44100)  # 指定采样率为44.1 kHz
mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)  #

y 是音频信号的数组表示，其中每个值代表一个样本点的振幅。
sr 是音频的采样率，这里将使用我们指定的 44.1 kHz。
mfcc 是一个二维数组，每一列对应一个时间帧的 MFCC 特征。

在 librosa.feature.mfcc 函数中，一个时间帧的大小通常是通过参数 n_fft 来指定的，它代表进行快速傅里叶变换（FFT）的窗口大小。而连续帧之间的重叠部分是通过参数 hop_length 来指定的。如果未明确指定，librosa 默认的 n_fft 通常是 2048，而 hop_length 默认是 512，这意味着默认情况下每帧有 2048 个样本，并且每帧之间有 512 个样本的重叠。

帧的大小（n_fft）和帧移（hop_length）共同决定了 MFCC 特征的时间分辨率。较大的 n_fft 值会导致每帧的时长较长，从而得到较平滑的频谱，但时间分辨率较低；较小的 n_fft 值则相反。帧移（hop_length）决定了帧与帧之间的重叠程度，较小的 hop_length 值会增加时间分辨率，但会减少频率分辨率。

例如，如果采样率 sr 是 44.1 kHz，那么一帧的长度（以秒为单位）可以这样计算：