torchaudio.load() 和 librosa.load() 的返回值区别

最新推荐文章于 2025-02-14 14:06:12 发布

半度、

最新推荐文章于 2025-02-14 14:06:12 发布

阅读量1.2k

点赞数 1

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_43457608/article/details/139993022

版权

问题

之前都在使用librosa加载音频数据，今天看到一段代码是用torchaudio加载的音频，发现torchaudio加载的数据和librosa返回的结果不一致。
查看资料后做出以下对比：
torchaudio.load 函数返回一个包含两个张量的元组:

音频数据张量,形状为 (channels, samples)
采样率

而 librosa.load 函数返回:

音频数据numpy数组,形状为 (samples,)
采样率

主要的区别有:

torchaudio 返回的是多通道数据,而 librosa 返回的是单通道数据。如果原始音频是多通道的,librosa 会自动将其转换为单通道。
torchaudio 返回的音频数据是一个张量,而 librosa 返回的是numpy数组。

import librosa
import torch
import torchaudio

audio_path = "../data/audio/4324107e-56bc-5ef4-b78b-d524d192b3fc/4324107e-56bc-5ef4-b78b-d524d192b3fc.mp3"
audio, sr = librosa.load(audio_path, sr=16000)
audio1, sr1 = torchaudio.load(audio_path, format='mp3')
print(audio.shape)
print(audio1.shape)

# 处理后数据一致
transform = torchaudio.transforms.Resample(sr1, 16000)
audio1 = transform(torch.mean(audio1, dim=0, keepdim=True))
print(audio.shape)
print(audio1.shape)

(11448320,) 16000
torch.Size([2, 34344959]) 48000

(11448320,)
torch.Size([1, 11448320])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

半度、

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【PYTHON】soundfile.read / torchaudio.load / librosa.load

iris_is_coding的博客

03-25

8091

在读取音频时有几种方法，而每一种所读出来的格式都不一样。Soundfile.read最简单输入参数也最少的方式...。Torchaudio.load读取完音频则为Tensor的型态，其输入参数有...。Librosa.load采用liborsa可直接设定是以单声道或是双声道读取，也能直接设置采样率，其输入参数有...。

python+torchaudio加载音频数据源

12-23

`torchaudio.load()`函数可以用于加载音频文件，它返回一个元组，包含一个Tensor（音频数据）和一个元组（采样率和通道数）。下面是一个例子： ```python import torch import torchaudio # 加载音频文件 ...

1 条评论您还未登录，请先登录后发表或查看评论

torchaudio.load() 和 librosa.load() 的区别

weixin_45226820的博客

05-16

3697

我自己经常遇到这个不同load的版本的代码，所以总结一下

疑难问题（三）——PyTorch 2.5.1 ‘librosa’库中‘librosa.load’函数卡死的问题

最新发布

weixin_36507907的博客

02-14

358

运行代码之后长时间没有任何反应（如图1所示），但是同样的音频文件用 ‘soundfile’ 库的 ‘read’ 函数很快就可以处理完毕（如图2所示）。，导致只有用管理员模式启动 Pycharm 才可以获取这个库的访问权限。结论：确实是管理员模式安装 librosa 才引起了这个问题；以管理员身份运行 Pycharm，结果如图3所示。猜想：由于安装这个库的时候，

librosa、nnAudio、torchAudio三者的差异

weixin_40927334的博客

09-03

3672

librosa、nnAudio、torchAudio三者的差异python可以使用的语音处理第三方库一览图下面是三个模块的简单使用参考 python可以使用的语音处理第三方库一览图如果你只是使用pytorch，需要关注nnAudio, torchAudio, librosa这三个模块，如上所示，nnAudio有很多优点，它是使用一维卷积实现的一个库，但是一些常用的功能，比如音频加载，谱图显示，幅度转为DB等它都没有，很多时候，还是要使用librosa配合。下面是三个模块的简单使用 from nnAu

pytorch深度学习入门（5）之-Torchaudio音频加载

ajunbin859的专栏

11-10

7677

Torchaudio是一个用于处理音频数据的Python库，它是基于PyTorch的扩展库，提供了丰富的音频处理功能和一系列预处理方法，方便用户在音频领域进行机器学习和深度学习的研究。具体来说，Torchaudio提供了从音频文件的读取到加载，音频变换和增强，以及音频数据可视化的整套工具。此外，Torchaudio还集成了一些常见的音频数据集，方便用户快速获取和处理音频数据。在安装方面，首先需要安装PyTorch，可以通过pip install torch命令来安装最新版本。

librosa.load() 读取音频的采样率处理

JOHZEN

10-18

2万+

利用python中的 librosa.load() 我们可以轻松的读取音频文件，但对于不同采样率的音频文件，使用这一函数有一些细节还需注意。如果 sr 缺省，librosa会默认以22050的采样率读取音频文件，高于该采样率的音频文件会被下采样，低于该采样率的文件会被上采样。如果希望以原始采样率读取音频文件，sr 应当设为 None。具体做法为 y, sr = librosa(filename...

torchaudio.load和load_wav

08-26

- *2* [torchaudio.load() 和 librosa.load() 的区别](https://blog.csdn.net/weixin_45226820/article/details/124808934)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source...

torchaudio.load

08-31

torchaudio.load函数是一个用于加载音频文件的函数。它接受一个音频文件的路径作为输入，并返回一个包含音频数据和采样率的元组。这个函数可以用来读取多种格式的音频文件，如WAV、MP3等。以下是一个示例代码： ```...

librosa.core.resample — librosa 0.7.2 documentation.pdf

06-08

标题《librosa.core.resample — librosa 0.7.2 documentation.pdf》和描述《librosa.core.resample — librosa 0.7.2 documentation，重采样官方文档》说明了本文档是关于librosa库0.7.2版本中核心模块之一的重采样...

pytorch加载语音类自定义数据集的方法教程

01-19

前言　　pytorch对一下常用的公开数据集有很方便的API接口，但是当我们需要使用自己的数据集训练神经网络时，就需要自定义数据集，在pytorch中，提供了一些类，方便我们定义自己的数据集合 torch.utils.data.Dataset：所有继承他的子类都应该重写 __len()__ ， __getitem()__ 这两个方法 __len()__ ：返回数据集中数据的数量 __getitem()__ ：返回支持下标索引方式获取的一个数据 torch.utils.data.DataLoader：对数据集进行包装，可以设置batch_size、是否shuf

torchlibrosa

05-06

TorchLibrosa：Librosa的PyTorch实施该代码库提供了一些librosa函数的PyTorch实现。如果用户以前用于训练librosa的cpu提取功能，但想在训练和评估期间增加GPU加速，则TorchLibrosa将提供与标准torchlibrosa函数几乎相同的功能（数值差小于1e-5）。安装 $ pip install torchlibrosa 例子1 用TorchLibrosa提取Log mel频谱图。 import torch import torchlibrosa as tl batch_size = 16 sample_rate = 22050 win_length = 2048 hop_length = 512 n_mels = 128 batch_audio = torch . empty ( batch_size , sample_rate )

利用librosa,torchaudio分别实现梅尔语谱图（Mel spectrogram ）音频特征提取的详细过程

qq_57540674的博客

01-23

6341

用不同的方式实现音频到梅尔谱的转变，如torchaudio，librosa，直接调用和分步实现，把音频的特征值提取出来，可用于音频分类。

torchaudio的使用

热门推荐

暮木的博客

08-12

2万+

torchaudio 和 librosa 库中提取 Mel Spectrogram 的相互转换

weixin_43335465的博客

02-08

1819

torchaudio 和 librosa 是深度学习中语音特征提取最常见的两个库，但是针对同样的特征两个库在提取 MelSpectrogram 特征的时候，得到的结果并不完全一致，这篇文章简述了一些配置和注意事项，从而使得两个库能够提取相同数值大小的特征。

【torchaudio】常用函数和类

everysigleday的博客

12-05

1638

将音频文件转化为tensor 函数输出两个值：音频信号和采样率，函数输入如下：其中channels_first为True时，音频信号tensor的shape为[channel, time]，channel为声道数，time为各个时间点的信号值。如果channels_first为False，tensor的shape为[time, channels] noirmalize参数并不执行音量的归一化，而是把采样点的数据类型从原来的类型转化为。当输入格式为WAV的整数类型，比如32bit带符号整型，16bit带符

【Python百日进阶-Web开发-音频】Day705 - 音频加载 librosa.load / librosa.stream

专注于医院数据分析技术与系统开发的创作与分享。

09-07

832

文章目录一、音频加载1.1 librosa.load1.1.1 语法与参数1.1.2 例子1.1.2.1 下载并加载文件1.1.2.2 加载并重采样1.1.2.3 加载文件，从第15秒开始，加载5秒- 一、音频加载 1.1 librosa.load 1.1.1 语法与参数 librosa.load(path, *, sr=22050, mono=True, offset=0.0, duration=None, dtype=<class 'numpy.float32'>, res_type='ka

安装使用librosa过程（二）

u010869312的专栏

06-13

859

librosa安装历程