论文|Onsets and frames: dual-objective piano transcription
1.文章出处
发在2018ISMIR,来自Google Brain团队,paper链接
论文笔记放在github上了
2.文章简介
“这篇文章已经把钢琴自动转录未来五年甚至十年的工作都做完了”. 我们用程序Demo转换了一首比较复杂的钢琴曲,听到转录的结果, 于是发出了这样的感叹.
本篇论文主要解决的问题是复音钢琴自动转录,也就是将原始的钢琴演奏音频转换为MIDI表示.
这篇论文的主要方法使用了一个onset检测器和一个framewise检测器,framewise检测器的预测值收到onset检测器值的限制:只有onset检测器同意在帧中有onset的存在,framewise检测器才会预测一个新的音符.作者认为只有同时改善音符的onset和offset才符合人类对音乐的感知.作者还拓展了模型预测velocity值,使得转录的结果听起来更加自然.
在MAPS数据集的转录结果在Note,Frame,以及Note(带offset)的F1 score相较于之前的state-of-the-art都有足足一倍的提升!!
本文还提出了一个新的评价指标:note with offset
3.文章主要方法
3.1 mel-spectrograms参数
229 mel-bins, 2048 FFT Window size, 16000Hz采样率.将该频谱结果作为CNN的输入.
3.2 onset detector
卷积层的输出作为128 units双向LSTM的输入,LSTM后接一个88 维输出的全连接层,88维的输出表示88个钢琴key的onset概率.
3.3 framewise detector
这个检测器的构成略有不同,首先是卷积层,接一个88维输出的全连接层,这个88维的输出向量会和onset detection端的对88个钢琴key的onset预测向量concatenate成一个176维向量,再过一个88维输出的全连接层.
3.4 Loss
总的loss是由onset端和note端两个cross-entrophy组成.
p m i n p_{min} pmin和 p m a x p_{max} pmax表示MIDI的音高范围,T代表样本中有帧的数目, I o n s e t ( p , t ) I_{onset}(p,t) I