我正在寻找一个模块,它可以读入mp3文件(从我的理解来看是一个二进制文件),并将它的数据值存储在一个数组中。我对音频世界还不熟悉,所以我不确定这些值代表什么。频率也许?在
我在Tensorflow项目中工作,从音频字节流中学习。所以我需要某种方式来表示音频字节流。在
一个标准的read()也许可以工作,但是每个音频文件都需要表示为一个完整的数组。所以也许每个元素都代表音频流的一个帧。在
我找到了这个link,但我不能让它工作。在
我有:command = [FFMPEG_BIN,
'-i', image_file,
# '-f', 's16le',
# '-acodec', 'pcm_s16le',
'-ar', '44100',
'-ac', '2']
# pipe = sp.Popen(command, stdout=sp.PIPE, bufsize=10**8)
pipe = sp.Popen(command, stdout=sp.PIPE)
raw_audio = pipe.proc.stdout.read(88200*4)
但它抛出了一个错误:OSError: [Errno 2] No such file or directory
请注意,image_file是文件-->;train/rock/006 - The Doors - Light My Fire.mp3的路径
整个代码段如下所示:
^{pr2}$