Harvest: A high-performance fundamental frequency estimator from speech signals

abstract

 用Hsrvest估计基频F0。这个算法的特点是可以获得一个可信的F0 contour并且减少voice section被误判为unvoice section的概率。第一步:通过多个不同中心频率的带通滤波器从信号中提取基频成分;然后用瞬时频率对提取的基频候选值进行提炼和打分,然后就可以在一帧估计出多个F0候选。因为一帧一帧做的基础成分提取对于短时局部噪声并不鲁棒,第二步使用一个用到相邻F0的connection algorithm。connection利用了F0 contour在短的间隔内不会骤变的特性。

1.introduction

2. Related works on F0 estimation

 使用哪种F0取决于研究的目的,DIO以及它改善的版本可以用于实时系统;STRAIGHT的NDF和TANDEM-STRAIGHT的XSX可以用于高质量的语音合成。特别是pitch 同步分析可以改善sp和ap估计的性能。当F0又被用于估计其他语音成分的时候,准确性非常重要。WORLD中的cheaptrick就需要一个高性能的F0估计器,因为系统通常用在一个带噪 环境下,估计器的鲁棒性也很重要。
 harvest用于高质量的语音合成,因为continuous F0 modeling对unvoice section给出一个F0,harvest尝试给unvoice frame一个可信的值。Harvest的思想是基于【28】,【15】。包含两步:
(1)估计F0的候选值;
(2)在这些候选值基础上选一个可信的F0

3. Algorithm details

 我们用具体的参数值解释harvest的细节,这些值在具体的数据集上做了优化。Harvest预测时1ms的帧移,用户可以通过插值获得 任意帧移的F0。

3.1 Step1:F0 candidate estimation

在这里插入图片描述
 每一帧选出多个F0的候选值,尽管有可能是有误差的,并且给出他们的置信度得分。输入信号通过不同中心频率的带通滤波器,滤波器h(t)乘以Nuttal Window以及sin wave,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值