钢琴转录论文Onsets and Frames:dual-objective piano transcription

最新推荐文章于 2024-09-01 08:32:38 发布

变量命名好难啊

最新推荐文章于 2024-09-01 08:32:38 发布

阅读量3.6k

点赞数 3

分类专栏：深度学习音乐信息检索音频信号处理文章标签：钢琴转录深度学习 MAPS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Alen_1996/article/details/93648924

版权

本文介绍了Google Brain团队在2018ISMIR发表的论文，提出Onsets and Frames双目标钢琴转录方法。通过onset和framewise检测器改善音符的起始和结束，以及预测速度值，显著提升了在MAPS数据集上的转录性能。实验显示，模型在Note、Frame及Note(带offset)的F1分数上取得显著提升，并引入了note with offset的新评价指标。

摘要由CSDN通过智能技术生成

论文|Onsets and frames: dual-objective piano transcription

1.文章出处

发在2018ISMIR,来自Google Brain团队,paper链接
论文笔记放在github上了

2.文章简介

“这篇文章已经把钢琴自动转录未来五年甚至十年的工作都做完了”. 我们用程序Demo转换了一首比较复杂的钢琴曲,听到转录的结果, 于是发出了这样的感叹.

本篇论文主要解决的问题是复音钢琴自动转录,也就是将原始的钢琴演奏音频转换为MIDI表示.

这篇论文的主要方法使用了一个onset检测器和一个framewise检测器,framewise检测器的预测值收到onset检测器值的限制:只有onset检测器同意在帧中有onset的存在,framewise检测器才会预测一个新的音符.作者认为只有同时改善音符的onset和offset才符合人类对音乐的感知.作者还拓展了模型预测velocity值,使得转录的结果听起来更加自然.

在MAPS数据集的转录结果在Note,Frame,以及Note(带offset)的F1 score相较于之前的state-of-the-art都有足足一倍的提升!!

本文还提出了一个新的评价指标:note with offset

3.文章主要方法

3.1 mel-spectrograms参数

229 mel-bins, 2048 FFT Window size, 16000Hz采样率.将该频谱结果作为CNN的输入.

在这里插入图片描述

3.2 onset detector

卷积层的输出作为128 units双向LSTM的输入,LSTM后接一个88 维输出的全连接层,88维的输出表示88个钢琴key的onset概率.

3.3 framewise detector

这个检测器的构成略有不同,首先是卷积层,接一个88维输出的全连接层,这个88维的输出向量会和onset detection端的对88个钢琴key的onset预测向量concatenate成一个176维向量,再过一个88维输出的全连接层.

3.4 Loss

总的loss是由onset端和note端两个cross-entrophy组成.

在这里插入图片描述

$p_{min}$ 和 $p_{max}$ 表示MIDI的音高范围,T代表样本中有帧的数目, $I_{onset}(p,t)$

最低0.47元/天解锁文章

变量命名好难啊

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
13
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。