Praat提取的基频可以工程应用吗?

15 篇文章 2 订阅

Praat作为普通语音学习者的标注工具已经算是比较经典的工具了。近些年来,随着AI的兴起,神经网络的算法更新迭代也很迅速,这其中有一些算法会涉及到基频,也称为音高,这个参数的应用。而作为学习者在学习科研中,基频也是一个衡量声调或者语调的重要表现特征。今天的话题是想比较使用Praat提取的基频和两种工程应用级别提取的基频是否有比较大的差异,换句话说,如果使用Praat这个工具提取的基频,能做到工程应用吗?

我们选择标贝公司的开源数据中的一句为例,

推荐 | 实用的开源数据(更新中)

本文涉及到的程序和数据见:

https://github.com/feelins/Python-linguistics/tree/main/Part-03/P03_003_get_pitch

我们分别使用Praat, Straight, WORLD,提取这句话的基频, 后面两种工具, Straight是日本的和歌山大学的一位教授开发,它的matlab代码是开源的,在语音界早期很长的一段时间内,它都作为一个重要的参数提取和声码器。 近些年来,WORLD作为一种开源的声学参数分析工具和声码器,也被广泛应用。我们现在就来比较三种工具提取的基频是有多大的不同。

  1. Praat脚本:https://github.com/feelins/Python-linguistics/blob/main/Part-03/P03_003_get_pitch/Get_Pitch.Praat
  2. Straight: 因为没有开源的python代码或者工具代码,需要在matlab环境使用;
  3. python脚本:https://github.com/feelins/Python-linguistics/blob/main/Part-03/P03_003_get_pitch/extract_f0_by_WORLD.py

三种工具,对同一句音频,提取的基频,也在这个目录内:

https://github.com/feelins/Python-linguistics/tree/main/Part-03/P03_003_get_pitch

我们使用的基频是16K采样率,提取的时候都是使用5毫秒的帧长,PraatStraight相同,都是提取了532帧,而world提取了533帧,此处仍然需要笔者去查阅是为什么,有兴趣的伙伴也可以关注。我们默认忽略这一个点的区别。

先画一个点线图,虽然有个别数据点的不同,总体看上去并没有比较大的区别。
在这里插入图片描述
其次,我们检查后发现,整个音频,有连续基频点的一共是6段,我们分别比较这6段,再和原始音频比较,查看这6段的范围,在3种工具上是否有大的差异。人工检查后,大概定位这6段的开始时间和结束时间为:

开始时间结束时间
0.40.58
0.740.88
0.971.32
1.421.8
1.882.04
2.192.38

针对三个工具提取的时间点,假如我们认为跟人工标记的最相近得2分,否则得1分。

工具开始帧结束帧开始时间结束时间得分
Praat851200.4250.61
1491800.7450.91
1952690.9751.3452
2843611.421.8052
3824091.912.0452
4384752.192.3752
straight821170.410.5852
1501800.750.91
1942680.971.342
2853621.4251.812
3814151.9052.0751
4394932.1952.4651
world781170.390.5852
1501800.750.91
1942730.971.3651
2853681.4251.842
3814091.9052.0452
4384822.192.412

事实上,这样的判断反而发现Praat和WORLD是比较接近人工判断的,当然这个人工判断仅是笔者一人所为,有兴趣的伙伴可以自己尝试提取数据比较。

总之,笔者认为,使用Praat提取的基频完全可以作为工程使用。

获取脚本

https://github.com/feelins/Python-linguistics

本站所有Praat脚本都可以在上述github的项目目录里找到,如果日常对代码、脚本操作比较熟练的可通过下载、安装、配置github for windows在自己的电脑上通过git clone将代码下载到本机,这样的好处是可以跟主站及时更新代码。
不想费如此脑筋,可以通过点击如下图Code位置所示,下载整站的代码,可直接使用。
在这里插入图片描述

关注

公众号:极地语音工作室, QQ讨论群720939827
在这里插入图片描述

版权说明

1、版权归本博客作者所有;

2、未经本站或者作者允许, 不得任意转载本文内容,否则将视为侵权;

3、转载或者引用本文内容请注明来源及原作者;

4、对于不遵守此声明或者其他违法使用本站内容者,本人依法保留追究权等。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

极地语音工作室

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值