TensorFlow Signal Processing
- Problem Overview
该项目的目标是评估使用深度学习进行音频效果仿真的有效性。对于音频,有两种主要的工具分类:生成器和效果。生成器是接收非音频输入(物理或midi)并从中创建音频的东西。这将包括乐器,合成器,鼓 - 基本上任何真正突出传统音乐的东西。另一个类别,即效果,是将音频作为输入并将其转换为其他音频输出的元素。这可以是从简单的滤波器到更复杂的效果,如失真或混响;即使通过电话呼叫房间或质量下降也是一种效果。这个项目背后的想法是看我们是否可以使用深度学习训练网络来模拟其中一种效果。
音频是机器学习的有趣媒介。与图像数据一样,可以定量和定性地判断输出。最重要的是,音频本身具有复杂的结构。波的附加属性可能会导致一些无法预料的结果。最重要的是,数字音频数据固有地被卷积:它被存储为从音频信号本身采样的时间序列的点。只要音频准备好输出,这些点就会快速傅里叶变换回信号。因此,许多受效果影响的信息隐藏在此信号处理问题背后。*
过去,在机器学习中进行信号处理涉及对输入进行一些手动分解,以抽象出信号处理[1]。通常,音频将被渲染成频谱图的图像,其显示音频的频率分布。虽然这适用于分类问题,但似乎没有必要像本文所关注的端到端问题。为此,我们需要进行