SPICE: Self-Supervised Pitch Estimation

会议:2020 TASLP (TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING)
作者:Beat Gfeller
单位:Google

abstract

使用自监督的方法预测pitch。SPICE (Self-supervised PItCh Estimation)

  • 现象:pitch shift是通过CQT(constant-Q transform)变换的基频。
  • 设计:将CQT变换后的两个片段送入网络,希望网络学习到对应成比例的区别。
  • 其他:在encoder之上引入一个小的网络,预测pitch估计的置信度,以区分清辅音。

introduction

pitch是一种可以独立于其音源的属性,比如note A4,不同乐器演奏的都是这个基频,多个不同的基频信号可以组合成和弦。基频对应信号中频率最低的谐波。
(1)之前基于time-domain 或者freq-domain,或者两者混合的方法,然后加上后处理的方法以平滑基频轨迹。
(2)机器学习的方法在基频预测问题上一直做的不是很好,主要是因为没有标注的数据。CREPE利用分析-再合成的方法实现了state-of-art的基频预测结果。

  • 现象:对于人耳,尤其是专业的音乐家,他们更能容易的估计relative pitch,而不是两个note之间的频率间隔(相对基频)。
  • 设计:conv encoder生成单独的scalar embedding,该模型将这个scalar值线性映射到音高,当后者以对数域数值表示时,即以相同缓和半音标度的半音(semitone)为单位。
  • (1)同一个信号的两个变种送入模型,其中一个的pitch被随机的改变,目标函数使得两个输出scalar embedding的区别和已知的pitch区别成比例。因此,模型已经可以通过自监督的方法学到相对pitch。
  • (2)通过一个小的synthetically generated数据集做一个简单的校准操作,将相对pitch转换成绝对pitch。

CQT

  • 小波数目足够多的话,就可以分辨对数域变化相关的pitch。因此,pitch shift可以用CQT对应的对数频率轴变化表示;此属性也适用于无法定义基频的不和谐或嘈杂的音频信号。
  • 但是有一些时候,CQT的分析也会引来估计误差,比如对于Shepard tone的基频偏移+11 semitone,人耳感知到的是-1 semitone,幅度和相位的估计都是错误的。本文暂不讨论这种情况。

UV estimation

本文不采用手动设定阈值的方法估计uv,而是选择预测pitch estimation confidence,在encoder的倒数第二层后加一个全连接层,用于估计预测的pitch置信度。

method

将encoder输出转换为绝对基频(semitone的方式表达)
在这里插入图片描述
其中 y t y_t yt范围【0,1】,然后用一组基频可控的生成语音数据训练 b b b s s s

Handling Background Music

对于人声+背景音乐预测人声基频的问题,使用数据增广+loss设计的方式(只用数据增广效果不好),loss函数计算clean和noise逼近的效果,让模型自动具有denoise的作用。
在这里插入图片描述
其中, c c c代表clean, n n n代表noise, p , q p,q p,q从clean和noise中随机都有可能生成组合。

在这里插入图片描述
重建损失,让noise重建的结果逼近clean重建的结果,而不是真实的gt。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值