nnAudio 开源项目教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00556/article/details/141080688

nnAudio 开源项目教程

nnAudioAudio processing by using pytorch 1D convolution network项目地址:https://gitcode.com/gh_mirrors/nn/nnAudio

项目介绍

nnAudio 是一个使用 PyTorch 卷积神经网络作为后端的音频处理工具箱。通过这种方式，可以在神经网络训练过程中实时生成频谱图，并且可以训练傅里叶核（例如 CQT 核）。nnAudio 的开发旨在提供一个快速、高效的 GPU 音频处理解决方案，特别适用于需要实时音频分析的深度学习项目。

项目快速启动

以下是一个简单的快速启动示例，展示如何使用 nnAudio 加载音频文件并生成频谱图。

from nnAudio import features
from scipy.io import wavfile
import torch

# 加载音频文件
sr, song = wavfile.read('/path/to/your/audio/file.wav')

# 将立体声转换为单声道
x = song.mean(1)

# 将数组转换为 PyTorch 张量
x = torch.tensor(x, device='cuda:0').float()

# 初始化模型
spec_layer = features.STFT(n_fft=2048, freq_bins=None, hop_length=512, window='hann', freq_scale='linear', center=True, pad_mode='reflect', fmin=50, fmax=11025, sr=sr)

# 前向传播以获取频谱图
spec = spec_layer(x)