文章目录
nn for pitch estimation
1. CREPE: A Convolutional Representation for Pitch Estimation
-
motivation: 使用data-driven的方法从歌曲中提取基频,包括从带有和弦的音频中判断uv & 提取基频
-
方法:基频范围离散成360个区间,目标基频映射到对应区间后做Gaussian-blurred 处理,然后预测值和真实值求二值CE Loss
-
实验数据:使用基频可控的生成音频用于训练(歌唱数据和乐器)——先分析,再生成,然后用分析的作为预测target。
-
效果评测:在测试的数据集上性能优于pYIN和SWIPE,并且具有一定的噪声鲁棒性(10dB以下优势更明显)。
2. SPICE: Self-Supervised Pitch Estimation
- motivation:大量标注数据训练pitch estimation任务是成本高昂的。
3. Joint Detection and Classification of Singing Voice Melody Using Convolutional Recurrent Neural Networks
- motivation:使用一个网络同时从带有和弦伴奏的乐曲中预测uv & estimate pitch
- 作者认为:pitch和uv的抽象程度不一样,pitch是从每一帧预测一个连续的数值,只是从近邻帧获得上下文信息;而uv需要从更宽的上下文中获得二值预测的结果;因此提出main和aux分别预测的结构
- pitch估计:依然是对pitch range离散分类,对目标pitch做Gaussian-blurred 处理,计算的时候有一个容忍的cents区间,然后求CE Loss
- voice估计
- 实验数据:各种流派、歌手的演唱数据(搭配MIDI);对原始歌曲做 +/- 1,2semitone的数据增广,实验证明这个增广是有效果的。