Harvest: A high-performance fundamental frequency estimator from speech signals

最新推荐文章于 2024-03-11 22:57:37 发布

林林宋

最新推荐文章于 2024-03-11 22:57:37 发布

阅读量765

点赞数

分类专栏： paper笔记

paper笔记专栏收录该内容

162 篇文章 24 订阅

订阅专栏

abstract

用Hsrvest估计基频F0。这个算法的特点是可以获得一个可信的F0 contour并且减少voice section被误判为unvoice section的概率。第一步：通过多个不同中心频率的带通滤波器从信号中提取基频成分；然后用瞬时频率对提取的基频候选值进行提炼和打分，然后就可以在一帧估计出多个F0候选。因为一帧一帧做的基础成分提取对于短时局部噪声并不鲁棒，第二步使用一个用到相邻F0的connection algorithm。connection利用了F0 contour在短的间隔内不会骤变的特性。

1.introduction

2. Related works on F0 estimation

使用哪种F0取决于研究的目的，DIO以及它改善的版本可以用于实时系统；STRAIGHT的NDF和TANDEM-STRAIGHT的XSX可以用于高质量的语音合成。特别是pitch 同步分析可以改善sp和ap估计的性能。当F0又被用于估计其他语音成分的时候，准确性非常重要。WORLD中的cheaptrick就需要一个高性能的F0估计器，因为系统通常用在一个带噪环境下，估计器的鲁棒性也很重要。
harvest用于高质量的语音合成，因为continuous F0 modeling对unvoice section给出一个F0，harvest尝试给unvoice frame一个可信的值。Harvest的思想是基于【28】，【15】。包含两步：
（1）估计F0的候选值；
（2）在这些候选值基础上选一个可信的F0

3. Algorithm details

我们用具体的参数值解释harvest的细节，这些值在具体的数据集上做了优化。Harvest预测时1ms的帧移，用户可以通过插值获得任意帧移的F0。

3.1 Step1:F0 candidate estimation

在这里插入图片描述
每一帧选出多个F0的候选值，尽管有可能是有误差的，并且给出他们的置信度得分。输入信号通过不同中心频率的带通滤波器，滤波器h(t)乘以Nuttal Window以及sin wave，

林林宋

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Harvest: A high-performance fundamental frequency estimator from speech signals

abstract 用Hsrvest估计基频F0。这个算法的特点是可以获得一个可信的F0 contour并且减少voice section被误判为unvoice section的概率。第一步：通过多个不同中心频率的带通滤波器从信号中提取基频成分；然后用瞬时频率对提取的基频候选值进行提炼和打分，然后就可以在一帧估计出多个F0候选。因为一帧一帧做的基础成分提取对于短时局部噪声并不鲁棒，第二步使用一个用...
复制链接

扫一扫

专栏目录