![](https://img-blog.csdnimg.cn/20190603105551850.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
音频处理知识汇总
这个专栏是因为最近在研究音频,因此将其汇总在一起供参考学习
哈特谢普苏特
海上生明月
展开
-
wave.Error: unknown format:3
产生这个的原因:对音频进性处理后写成新的音频使用了librosa.output.write_wav()函数librosa.output.write_wav(sys.argv[3], A, sr)排除FFmpeg的原因,发现是wav格式的问题。Wav格式有很多种,但是wave.open()中支持的是pcm的格式,因此需要格式的转变。参考资料因此我们需要做的是在win...原创 2019-07-08 15:49:36 · 11923 阅读 · 6 评论 -
librosa.stft() 源码分析
#!/usr/bin/env python# -*- coding: utf-8 -*-'''Utilities for spectral processing'''import numpy as npimport scipy.fftpack as fftimport scipyimport scipy.signalimport scipy.interpolateimport ...原创 2019-07-05 11:13:22 · 4601 阅读 · 0 评论 -
将.ncm文件转换为.mp3文件
转载# 依赖pycrypto库import binasciiimport structimport base64import jsonimport osfrom Crypto.Cipher import AESdef dump(file_path): core_key = binascii.a2b_hex("687A4852416D736F356B496E6261...原创 2019-06-19 10:08:50 · 7557 阅读 · 0 评论 -
python3.6 错误: ModuleNotFoundError:No module named "Crypto"
转载原因及处理:在使用python是经常会用到import一个第三方库,但是有时候会提示某个模块不存在,如Crypto其实是因为Python3里面这个模块的名字变了,pip install pycrypto试试安装成功后,如果还是提示没有该模块,那就python3的安装目录Lib—-site-package中查看是否有Crypto文件夹,这时你应该看到有crypto文件夹,...转载 2019-06-19 08:31:36 · 1333 阅读 · 0 评论 -
.wav转语谱图
import numpy, waveimport matplotlib.pyplot as pltimport numpy as npimport osfilename = 'source-02.wav'# 调用wave模块中的open函数,打开语音文件。f = wave.open(filename,'rb')# 得到语音参数params = f.getparams()nch...原创 2019-06-03 10:39:13 · 1687 阅读 · 8 评论 -
python 混音的实现
混音是指多个音频同时播放,不是指一段音频播放完以后接着播放另一段from pydub import AudioSegmentsound1 = AudioSegment.from_mp3("source-02.wav")sound2 = AudioSegment.from_mp3("source-01.wav")# mix sound2 with sound1, starting a...原创 2019-06-03 10:53:45 · 3380 阅读 · 0 评论 -
读音频文件改名并将其存放在另一个文件中
import osdef open(): fileread = 'mix.wav' fileread1 = 'source-02.wav' data_path1 ='Wor/S1' data_path2 = 'Wor/S2' data_dir = 'data/ccmixter_corpus' wavs_dir = os.listdir(dat...原创 2019-06-15 11:03:38 · 455 阅读 · 4 评论 -
Segan : Speech Enhancement Generative Adversarial Network
语音增强生成对抗网络目前的语音增强技术是在频谱域上进行操作和/或利用一些更高级的特征。它们中的大多数处理有限数量的噪声条件,并依赖一阶统计。为了避免这些问题,由于能够从大型示例集中学习复杂的函数,深层网络正越来越多地被使用。在这项工作中,我们建议使用生成对抗网络的语音增强。与目前的技术相比,我们在波形级别操作,端到端地训练模型,并将28个扬声器和40个不同的噪声条件合并到同一模型中,这样模型参...翻译 2019-06-16 14:15:20 · 3820 阅读 · 1 评论 -
SINGING-VOICE SEPARATION FROM MONAURAL RECORDINGS USING DEEP RECURRENT NEURAL NETWORKS论文翻译
基于深度循环神经网络(DRNN)的单通道音乐人声分离ABSTRACT单声道源分离对于许多现实世界的应用是重要的。 由于只有单一频道信息可用,因此具有挑战性。 在本文中,我们探索使用深度递归神经网络在监督环境中从单声道录音中分离歌声。 深入研究了具有不同时序神经网络。我们建议通过将分离步骤包括在最后一层中作为非线性操作来联合优化多个源信号的网络。 进一步探讨了不同的判别训练目标,以提高源干...翻译 2019-03-11 18:31:42 · 1279 阅读 · 0 评论 -
Music Signal Processing Using Vector Product Neural Networks论文翻译
我们提出了一种新的神经网络模型,用于使用矢量积神经元和维度变换进行音乐信号处理。 这里,输入首先从实际值映射到三维矢量,然后馈入三维矢量乘积神经网络,其中输入,输出和权重都是三维值。 接下来,最终输出将映射回实数。 提出了两种维数变换方法,一种是通过上下文窗口,另一种是通过光谱着色。 用于盲唱语音分离的iKala数据集的实验结果证实了我们模型的有效性。Introduction近年来,深度学...翻译 2019-03-11 16:29:34 · 362 阅读 · 0 评论 -
WaveNet笔记
直接在原始音频波形上处理特色是使用带洞因果卷积处理音频(dialated causal convolutions)因果卷积:果卷积的意义就是WaveNet在生成t时刻的元素时,只能使用0到t-1时刻的元素值。在WaveNet中利用,output输出只利用了之前的元素来生成。由于声音文件是时间上的一维数组,16KHz的采样率的文件,每秒钟就会有16000个元...原创 2019-05-27 15:04:21 · 514 阅读 · 0 评论