Praat
文章平均质量分 89
极地语音工作室
这个作者很懒,什么都没留下…
展开
-
Praat脚本-039 | 如何统计TextGrid标注的一致性及有效完成校对的方案
我们在做标注的时候,是否会有这样的需求,这件事可能是好几个人在标注,或者工作要分配给外部类似于外包标注。这时候,你可能要知道,这一批数据(TextGrid)在这些处理的人中,是否具有标注一致性?首先,假定这是一个A标注,也可以认为是标准标注答案,我们用其它的标注来和它比较。这一段示例是英语标注中,有8个词,每个词有若干音素。我们再来看另外两个人分别为B和C的标注情况。原创 2024-07-21 15:45:07 · 1028 阅读 · 0 评论 -
Praat脚本-038 | 批量替换标注TextGrid里的换行符
的操作,所谓正则表达式是通过一些约定的符号规则,来统一表示某一类的符号,或者是一些特殊的符号,比如我们今天要解决的换行符的问题。这里面包括了常用的很多的功能,比如所有字母类,所有数字类,一些简单的通配符,大小写,制表符等,有兴趣的可以自己去查看,如果确实有其它功能需要支持的,也可以公众号后台留言。我们在做标注的时候,可能会犯这样一个小错误,就是在标注的内容中间不小心进行了换行,大概会成为这个样子。,这里的A1指要替换的左边的第一个单元格,我们在这个格子的左下角的黑十字拖动它,将会批量生成所有的结果。原创 2023-11-25 15:37:55 · 1015 阅读 · 0 评论 -
Praat脚本-037 | 批量把标注TextGrid生成韵律文本
这里我们想提示一下有这几个信息需要关注,第一是因为这里采用的是标贝公司的开源标注数据,这些数据的汉字层是有停顿边界的,即那些1,2,3,4等;这个标注的使用者也主要是有经验的语言学专家,或者一些研究者等,在实际的工程利用中,工程师通常要处理的是直接的文本或者转化成某种格式的文件,因为。总之,脚本想再全面也不可能覆盖所有的情况,如果确实有类似的需求,而你的标注是比较复杂的,可以加入QQ咨询群,或者在公众号后台发信息。我们先考虑中文标注的情况,假设我们有两层最基本的标注,一层是读音音素信息,一层是汉字层。原创 2023-04-22 11:27:07 · 2225 阅读 · 0 评论 -
Praat脚本-040 | 将文本按行分别保存为独立的文件
在讲脚本操作之前,我们先说一下这个输入的文本,如果你有类似的需求,而恰好有这样规整格式的文本,那当然是再好不过的了。但是如果你是需要自己制作这个文本,这里有一个问题就是要务必保证在每个文件名后面是以TAB键隔开的,可能你会反问,为什么不可能用逗号,分号,。我们在工作中或许会有这样的需求,我们有一个文本文件,它是按行保存了很多内容,我们现在希望将这些文本按行分别保存为独立的文件。那么在保存的时候,脚本会按行为顺序指定一个5位的数字,同样如果你可以修改脚本,可以在脚本里找到这个5的位置,修改数字的位数。原创 2023-04-21 20:17:16 · 451 阅读 · 1 评论 -
Praat脚本-033 | Praat脚本裁剪归整句中停顿
在应用中,发现也会用到这样一个处理,就是希望能批量的对于句子中间可能存在的比较长的静音段进行处理,因为在录音的过程中,虽然希望在句中的静音段都比较适中,但是因为毕竟在录音的过程中很难控制的各种状态和因素,再者,如果手头上的语料是来自遥远的“年代”,或者来自网上的录播等途径,那就更有必要进行这样的操作原创 2022-12-03 23:26:42 · 1147 阅读 · 1 评论 -
Praat脚本-036 | Praat脚本批量为音频添加首尾静音段
有一个小的应用是有一批音频信号,想批量的通过脚本为这些音频信号在首、尾都增加一小段静音段。这里就通过Praat生成一小段静音段的音频信号,再分别拼接到原来音频信号的首、尾,从而保存为新的音频信号。......原创 2022-06-11 14:12:07 · 929 阅读 · 2 评论 -
Praat脚本-027 | 通过基频曲线的距离做一个声调判别器
这里写目录标题使用背景如何做使用说明获取脚本关注公众号咨询QQ群关注版权说明使用背景我们已经知道如何利用Praat脚本提取基频,如果对使用Praat提取的基频是不是可用有疑问的可查看这篇文章(), 而如果不知道如何提取基频的可查看这篇文章()。今天我们来定义一个小小的应用,我们引进一个曲线距离的概念,来比较一下基频值,而基频值是直接反映声调或者语调的参考,那么我们研究一下是否通过曲线距离这个概念,能够对声调有所区分,可以定义为一个简单的声调分类器。作为尝试,我们使用的是中文普通话的数据,但是这样的参考原创 2022-04-10 12:55:49 · 3851 阅读 · 0 评论 -
Praat提取的基频可以工程应用吗?
`Praat`作为普通语音学习者的标注工具已经算是比较经典的工具了。近些年来,随着AI的兴起,神经网络的算法更新迭代也很迅速,这其中有一些算法会涉及到基频,也称为音高,这个参数的应用。而作为学习者在学习科研中,基频也是一个衡量声调或者语调的重要表现特征。今天的话题是想比较使用`Praat`提取的基频和两种工程应用级别提取的基频是否有比较大的差异,换句话说,如果使用`Praat`这个工具提取的基频,能做到工程应用吗?原创 2022-03-20 21:21:45 · 4220 阅读 · 1 评论 -
Praat脚本-033 | Praat脚本批量提取MFCC参数
MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如:对于一帧有512维(采样点)数据,经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了降维的目的。【原文链接:https://blog.csdn.net/fengzhonghen/article/det原创 2022-03-13 17:11:07 · 4865 阅读 · 0 评论 -
Praat脚本-032 | Praat脚本批量转化TextGrid格式为json格式
JSON 是存储和交换文本信息的语法,类似 XML。JSON 是轻量级的文本数据交换格式。JSON 使用 Javascript语法来描述数据对象,但是 JSON 仍然独立于语言和平台。JSON 解析器和 JSON 库支持许多不同的编程语言。 目前非常多的动态(PHP,JSP,.NET)编程语言都支持JSON。JSON 具有自我描述性,更易理解。如下:{ "sites": [ { "name":"菜鸟教程" , "url":"www.runoob.com" }, { "name":原创 2022-03-13 16:33:00 · 1141 阅读 · 3 评论 -
Praat脚本-031 | 批量转化mp3格式为wav格式
通常推荐大家在做语音实验、或者语音处理的时候使用的首选音频格式为wav格式,但是可能由于每个人接触的项目,课题的原因,也会使用到大量mp3格式的音频。表面上看这两种格式没有比较明显的区别,mp3格式是一种较大程度保留了wav信息的一种压缩格式。如以下同一个文件,转化为mp3格式前后的大小为:LengthName65113000001.mp3255404000001.wav可见两种格式大小还是相差很大的。日常也有很方便的工具,如格式工厂能够转化任意格式的文件。这里只是提原创 2022-01-15 17:29:47 · 2953 阅读 · 0 评论 -
Praat脚本-030 | 谈谈自动标注这点儿事(4)
,比如完全零基础的强制的平均增加边界的(Praat脚本-023 | 谈谈自动标注这点儿事(1)), 基于Praat脚本的Easy-align(),便于操作的工具类似(语音标注自动音段对齐工具SPPAS使用笔记), 本期小结一下,以及介绍一种目前比较专业的自动标注框架。前面零零散散为大家介绍或者推荐了几种跟自动标注相关的内容,第一篇为大家推荐了第一种级别的“自动标注”,其实相当于协助大家把一些需要的信息增加进去。Praat脚本-023 | 谈谈自动标注这点儿事(1)第一,傻乎乎的自动标注,第二,使用原创 2021-11-27 22:30:40 · 2302 阅读 · 1 评论 -
Praat脚本-029 | 一种更有效的校对音频内容的方案
目录引题安装环境安装Python安装WxPython安装JuliusSPPAS使用数据格式数据准备准备音频和文本导入SPPAS进行切分关注版权说明引题在语音标注工作中,精标工作是大多数情况下必需的。在大数据,人工智能的大环境下,有一种工作也是数据整理的重要组成部分,这就是文本校对工作,或者叫字音一致性校对。比如,我们现在有数十小时,甚至上百小时的数据,这些数据是参差不齐的,在通过基础的语音识别模块之后,我们得到了一些文本结果,显然如果通过更好的得到一句话准确的文本内容,这将会为后续的工作产生更积极的效果原创 2021-09-24 09:51:37 · 1599 阅读 · 0 评论 -
Praat脚本-030 | 谈谈自动标注这点儿事(3)
目录简介安装环境安装Python安装WxPython安装JuliusSPPAS使用数据格式数据准备准备音频和文本导入SPPAS进行切分关注版权说明简介SPPAS工具是由Brigitte Bigi(Laboratoire Parole et Langage - Aix-en-Provence - France)开发的。在网上提供免费下载及使用。这是一款目前比较流行的自动标注,音段对齐的工具,目前应用于法语、英语、汉语等都有不错的效果。虽然音段自动对齐的准确率并不完善,但是对于一般的语音研究者来说,能够自动原创 2021-09-05 12:19:50 · 1387 阅读 · 0 评论 -
推荐 | 实用的开源数据(更新中)
巧妇难为无米之炊,今天的推荐是两套开源数据。关注本公众号的朋友,可能一部分是已经在做自己的课题或者项目,可以直接使用本站这些脚本或者程序的;也有的刚在学习进行中,那么手头可能未必会有合适的数据来进行实验或者提取,分析。这篇文章的目的,为大家推荐两套开源数据库,这些数据有wav和标注好的结果,可以直接用来提取参数,了解实验过程。开源数量是公开免费使用的,但是不能用做商业用途,拿来用做学术研究,写论文都是没问题的,原则上要注明出处。...原创 2021-08-08 15:24:45 · 659 阅读 · 0 评论 -
Praat脚本-026 | 谈谈自动标注这点儿事(2)
目录引题操作解释运行脚本获取脚本关注QQ群引题使用Praat进行语音标注,这是Praat使用者最基础的功能。在较原始的语音生产阶段,我们开始用Praat标音,打开一个句子,一个时间点一个时间点的加蓝条条,还要调整,还要听,好不容易标完了一层,没想到你的方案决策者或许还会让你标几层,十多层。。。!?希望看到此处的你没有在眼科挂号。毕业之后,你可能去了一家大厂,你发现这里标注的是上万句,这是什么鬼,毕业的目的应该不是来这里标蓝条条吧?!很显然,在所谓的大数据时代,这些大厂用的是自动标注。根据不同的使用情原创 2021-08-07 15:33:03 · 1480 阅读 · 5 评论 -
Praat脚本-028 | 批量合并目录内的音频文件
这里写目录标题使用背景实现效果使用说明获取脚本关注公众号咨询QQ群使用背景本脚本适用于如何快速合并某一批目录里的所有音频(.wav)。假定现在有这样一个场景,你得到一大批TextGrids,这些大概有1000条,这1000条是不同的人完成的,你的同学A负责标注完成了第1,2层,你的同学B负责标注完成了第3,4层,甚至前者是第1,3层,后者是第4,7层,如此种种。现在你的任务是要把这两位同学的任务合并在一块,形成一个新的TextGrid文件,这就用到了Praat的合并操作,Merge,但是实现起来主要是要原创 2021-08-06 09:23:43 · 1069 阅读 · 0 评论 -
Praat脚本-025 | 轻松合并不同目录里的TextGrids
这里写目录标题使用背景实现效果使用说明获取脚本关注公众号咨询QQ群使用背景假定现在有这样一个场景,你得到一大批TextGrids,这些大概有1000条,这1000条是不同的人完成的,你的同学A负责标注完成了第1,2层,你的同学B负责标注完成了第3,4层,甚至前者是第1,3层,后者是第4,7层,如此种种。现在你的任务是要把这两位同学的任务合并在一块,形成一个新的TextGrid文件,这就用到了Praat的合并操作,Merge,但是实现起来主要是要考虑到我刚才说的可能情况各种各样,如何使用更方便,而且能够任原创 2021-05-22 15:28:36 · 858 阅读 · 0 评论 -
Praat脚本-024 | 如何使用PyToBI工具自动标注韵律边界调
ToBI介绍ToBI是标注语调模式和其它一些韵律层面的信息的系统,最初提出用于英语句子上,目前在其它很多语言都有使用。详细说明可参考它的官方网站,以及有大量的文献。小编只是偶然遇到github上这个项目,分享给大家。项目来源今天推荐大家一款自动标注ToBI语调模式及一些韵律特征的开源工具包,PyToBI,笔者在试用的时候,发现有些地方操作有问题,发信请作者放一下数据,作者说因为版权的原因,她只回复了一个TextGrid,也没有放wav,我的目录里放了3句话,包括wav和TextGrid,在praat原创 2021-05-20 22:02:08 · 2701 阅读 · 10 评论 -
Praat脚本-023 | 谈谈自动标注这点儿事(1)
目录引题操作解释运行脚本获取脚本关注QQ群引题我们开始用praat标音的时候,打开一个句子,一个地方一个地方的加一个蓝条条,还要调整边界,还要听听对不对,好不容易标完了一层,你的老板竟然还要弄好几层的蓝条条!?等标完几十句话,有的人疯了,没疯的也去医院挂眼科了!!当你毕业之后,你去了一家大厂,你发现人家标注的是上万句,这,什么鬼,我毕业的目的应该不是来这里标蓝条条吧?!这些大厂用的是自动标注,这个技术有四个层次,第一,傻乎乎的自动标注,第二,使用脚本的自动标注,第三,使用诸如SPPAS的自动标注原创 2021-04-27 22:27:49 · 4213 阅读 · 5 评论 -
Praat脚本-022 | 提取时长和音强
目录引题操作解释运行脚本获取脚本关注QQ群引题提取基频Praat脚本-009 | 提取时长和基频,提取共振峰Praat脚本-010 | 提取时长和共振峰,提取音强,这大概是最常用的三类特征。经热心读者提醒,貌似前期并没有上传过提取音强的脚本。声音的强度是一个客观的物理量,其常用单位为“分贝(db)”,在Praat里用Intensity表示。操作解释我们举一个例子说明Praat对基频的一些操作,如图所示。这是一句中文的标注。图上的黄色线条就是表示音强,比较明显,每个音节/字,音强线就象一个小帽子,表示原创 2021-04-25 20:50:44 · 3317 阅读 · 4 评论 -
Praat脚本-012 | 绘制平行句语调图
目录引题运行脚本获取脚本关注引题学习了如何提取基频Praat脚本-009 | 提取时长和基频之后,本篇介绍如何通过基频数据绘制很多研究对象对于同一句话的平行句的语调图。这个脚本是Praat脚本-009 | 提取时长和基频的一个变化,09中提取的基频是一个音节一行,而这里需要对多个同样内容的句子,提取的基频序列,画出对比的语调图,所以每一句提取的所有基频需要在同一行,适用的情况如下,给定例子目录里有5句话,是5个人的语音,是同样的内容She is much too busy!,语料来源于http://w原创 2021-01-12 20:52:15 · 1150 阅读 · 0 评论 -
Praat脚本-011 | 绘制元音分布图
目录引题运行脚本情况一情况二情况三获取脚本关注引题学习了如何提取共振峰(Praat脚本-010 | 提取时长和共振峰)之后,有一个很重要的步骤就是如何将这些数据呈现出来,以表达你的观点或者说明问题。在提取共振峰这一篇文章中,我们已经知道可以简单的根据平均值画出声学元音图,知道你所研究的样本在元音区间内,是如何分布的。本篇会介绍另外一个操作,就是如何绘制元音分布图。元音分布图是利用提取的共振峰数据F1和F2,在坐标图上绘制出所有样本的点,也算是一种散点图,再利用Praat的一个Discriminant功原创 2021-01-12 20:31:12 · 5300 阅读 · 4 评论 -
Praat脚本-010 | 提取时长和共振峰
目录引题提取基频操作解释运行脚本获取脚本关注引题与提取基频的工作类似,提取共振峰也是很常用的一个数据提取操作,共振峰在物理学上称为共振谐波,最典型的例子是我们扔石子到水里,看到的一条一条有规律的水波慢慢展开来,在语谱图上,周期性的浊音,也会产生谐波共振,通过语图上的采样点的描述,我们不但可以清楚的看到这些共振的图形,而且可以通过比较准确的数值来描述出来。共振峰也可以称为Formant。通过第一,第二,第三共振峰可以得到不同元音的分类。通常称为声学元音图。以下来自维基百科。我们如果有足够多的语料,调查原创 2021-01-11 21:20:25 · 5938 阅读 · 5 评论 -
Praat脚本-016 | 计算VC相关的节奏参数
在韵律研究中,有很多学者使用 VC参数相关的参数来描述节奏,VC指的是元音、辅音,这一批参数全部是用在时长的计算,具体的公式是否真的代表了韵律上的某种意义在此不作讨论,有兴趣的朋友可查阅相关的论文。这个脚本是用最新版的Praat6.1.13,因为有一些新的功能老版本未必会有,请务必至官网(http://www.fon.hum.uva.nl/praat/)下载最新版本的Praat。这些新功能可以将标注的内容迅速转化为表格,以及能够一键从这个表格中抽取某一类,比如本脚本需要的V或者C类。请先在Praat里对原创 2021-01-06 21:59:24 · 823 阅读 · 0 评论 -
Praat脚本-014 | 删除选择区域内的所有边界条
最近更新了几篇有关于在标注数据的时候,便捷的对所选的部分进行删除等操作,今天新增加两个功能即是对选择的区域直接保存为新文件的操作,现将目前四个按钮的功能都一并介绍。新增菜单功能一:见文章[脚本 | Praat自建菜单批量删除边界-简化版]。脚本是:Delete_Selected_Boundary.Praat。标注时删除所选区域的边界条,最新版本已经修改为可以同时删除你标注TextGrid里所有层的边界条。使用前:标注如下,我们选择如图区域,想删除这部分边界条;点击我们自定义的菜单在Boundary菜原创 2021-01-06 21:49:47 · 2064 阅读 · 0 评论 -
Praat脚本-013 | 无需标注自动切除音频首尾静音段
目录引题提取基频操作解释运行脚本获取脚本关注引题在提取数据的工作中,提取基频这是最重要的一部分,基频也可以称为Pitch, F0。它跟我们感知到的声调,语调是相关的,所以通常用来描述声调语言的声调,以及语调走势等。有关于相关的理论在此不展开,请查阅其它资料。以下图例从论文中摘出。上图针对的声调语言的声调研究,在通过大量的数据提取平均值之后,画出来4个声调调类的基频走势。上图是原始值,下图是归一化到5度的值。描述方法是一样的。从这样的图,我们能够大概知道研究对象的声调趋势情况。同样的道理,我们想研原创 2021-01-05 21:28:04 · 1829 阅读 · 0 评论 -
Praat脚本-008 | 提取某一层时长
目录引题运行脚本获取脚本关注引题提取时长是提取数据的工作中最基本的,这个脚本的目的其实主要是为了一些脚本爱好者能有一个学习的机会。因为实现起来比较简单。我们以下面的标注文件为例:现在将第一层或者第二层的时长提取出来。运行脚本本文的代码下载地址见下文(获取脚本部分)是08-get_duration_of_one_tier/Get_Duration_of_One_Tier.praat。脚本里有我的邮箱,有任何问题都可以来信咨询。打开Praat之后,选择Praat,Open Praat Scrip原创 2021-01-05 20:43:47 · 998 阅读 · 3 评论 -
Praat脚本-017 |拆分已经标注好的音素为两个音素
目录引题获取脚本关注引题在标注过程中,一批任务标完之后,可能对一些音素重新进行了定义,这时候可能会需要批量将一个音素拆分成两个音素,比如对于双元音,au,拆分成a和u,当然扩展开来,也可以拆成多个音素,本脚本只讨论拆成两个音素的情况。音素被拆分成两个,在标注文件上,边界条也要同步体现,如果有大量的数据,手工完成自然费时费力,这个脚本可以批量进行拆分。对于拆分之后的时间点,是采用的原始音素的中间值,即在原来音素的时长中间点,增加一个边界条。如图所示,拆分后,我们想达到这样的效果。说明:该句样例来自原创 2021-01-03 14:30:09 · 1268 阅读 · 1 评论 -
Praat脚本-018 | Praat批量调整音量
目录引题操作介绍运行脚本获取脚本关注引题要进行语音实验,录音的环节其实是成功的第一步,录音质量、发音人表现、录音内容的设计都是必须要认真对待的,否则最后花了很多精力和财力,最后的实验数据如同鸡肋。但是事实上,无论是在校的研究生,还是公司数据工程师,拿到的数据未必符合以上准则,可能你也没有权利要求重新换一批数据图片。今天的脚本要解决的一个问题是音量问题,你拿到手的音频音量很低,无论是做标注,还是工程做模型,这样的数据都会影响很大。怎么样才能够批量的将所有音频调整音量,而且不要影响到音频本身的音质?操作原创 2021-01-03 11:35:14 · 1429 阅读 · 3 评论 -
Praat脚本-019 | Praat批量修改音频通道数
目录引题运行脚本获取脚本关注引题今天为大家推荐一个脚本,是批量修改音频的通道数量的,有时候由于一些专业录音设备在录音的时候,可能是用的双通道录音的,也称为stereo,当用Praat打开之后,你会发现,波形图显示两部分。右侧显示Ch1和Ch2,代表第一、二通道,通俗的说,就是左右声道。对于做研究写论文标注来说,不太清楚这会不会有太大的影响,但是对于公司做模型等用途,这可能是一些算法限制的必须是单通道的。今天提供的脚本就是批量将双通道转化为单通道。如果你的音频数量不多,在Praat中你可以选择直接读原创 2021-01-03 10:33:35 · 1414 阅读 · 1 评论 -
Praat脚本-006 | 批量修改删除复制某一层
目录引题运行脚本第一种情况:增加interval层级第二种情况:增加point层级第三种情况:删除某个层级第四种情况:将某一层复制到某位置获取脚本关注引题结合上一个脚本,Praat脚本-005 | 标注文件批量增加层级,是能够实现批量增多个层级,而本次的脚本的出发点是能够实现在已有标注TextGrid基础上灵活的实现对任意的一个层级增加,删除,复制,修改层的名称,和上次的区别在于,这个脚本虽然操作是灵活的但,是只能修改一层。增加的时候也能够自主选择是否是interval层还是point层,以及能够在任意原创 2021-01-02 21:16:09 · 1435 阅读 · 1 评论 -
Praat脚本-005 | 标注文件批量增加层级
目录引题运行脚本第一种情况:顺序增加层级第二种情况:顺序增加不同类型层级第三种情况:指定位置增加层级获取脚本关注引题这个脚本的出发点是能够实现在已有标注TextGrid基础上灵活的实现增加任意层级,而且能够自主选择是否是interval层还是point层,以及能够在任意位置增加等功能。脚本的功能很简单,但是小编希望能够尽量考虑的情况多一些,所以这个脚本实现起来还是有一点复杂的。运行脚本本文的代码下载地址见下文(获取脚本)是05-add_some_tiers/add_tiers.Praat。脚本里有我原创 2020-12-31 13:17:46 · 1146 阅读 · 0 评论 -
Praat脚本-009 | 提取时长和基频
目录引题代码段运行脚本格式要求替换实例一替换实例二替换实例三运行脚本获取脚本关注引题在提取数据的工作中,提取基频这是最重要的一部分,基频也可以称为Pitch, F0。我们在做音频标注的过程中,经常遇到需要批量修改某个地方,比如最开始标的发音aa,后来对数据整体的认识变了,想把所有的aa都变成读音ae;再比如,我们标注了所有的元音,辅音等,想利用节奏CV的计算方式,将所标的数据全部批量转化为C, V的格式;还有我们在认真标完了之后,由于不可抗拒的原因,要将所有数据以指定的体系标注,比如你原来就是用普通的原创 2020-12-30 22:40:21 · 7313 阅读 · 5 评论 -
Praat脚本-004 | 替换标注内容
目录引题代码段运行脚本获取脚本关注引题在学习过程中,遇到一些标注现象,在标注的时候,标注员不方便记住大量的IPA等语音描写符号,倾向于使用英语单词或者汉语拼音的原始符号,但是在学术写作的过程中,或者 在学术教学中,这些符号不能更好的描述语音单元,统一的使用IPA符号是比较好的选择。这样有一个更好的办法就是在标注时使用普通标注,使用下面的脚本,把音段层的标注全部替换为IPA符号。音频文件的重新采样,通常用于通过大规模语音数据构建模型时,由于算法的一些固有限制,采样率过高,意味着占有的内存,运算都会面临很原创 2020-12-16 20:40:48 · 1025 阅读 · 0 评论 -
Praat脚本-007 | 计算目录里音频或者TextGrid总时长
目录引出简便操作脚本脚本说明运行脚本如何获取脚本 `https://github.com/feelins/Praat_Scripts`关注微信公众号,`语音处理小站`引出统计录音时长,是大家经常用到的一个功能,统计的方法有很多,这里小编只介绍两种,一种是在win10系统中的资源管理器中可直接实现,另外一种当然就是本文的主题,通过Praat脚本实现。简便操作首先介绍第一种,直接利用windows的资源管理器,打开需要统计时长的目录之后,选择菜单里“查看”下面的,“详细信息窗格”按钮,这时候你会发现在右原创 2020-12-06 16:23:25 · 1754 阅读 · 0 评论 -
Praat使用 | 辅助Praat进行标注的工具
无论是学术课题的研究或者是公司项目的进行,数据处理是必然的,对语音数据来说,通过Praat标注仍然是很多学术团体或者公司使用较多的手段,包括语音识别和语音合成等。这些标注数据不仅是十几句的问题,以现在大数据的标准,你所面临的数据可能是上千,上万级别的。通过Praat进行标注是很方便的,问题在于,Praat不象是办公软件会有自动保存功能,如果你进行大量的数据标注,需要首先打开这个音频和标注文件:其次,选择音频和标注文件,点击View&Edit进行标注。最后,还要记得把你的标注文件,进行保存。原创 2020-10-30 09:44:19 · 8122 阅读 · 17 评论 -
Praat脚本-003 | 一种高效的将连续录制的音频切分的方案
在语音处理过程中,整理语料,录音,再进行标注,是一个非常重要并且基础的步骤。在录音时比较高效的做法是让录音人一次把所有语料全部录制完成,而不是录一句保存一句。这样录出来的语音存在的问题是,在标注时,声音太长,会很难处理,Praat在标注时也比较卡,也不好检索。这里要介绍的脚本就是通过手工给出大概的句子边界,通过这个脚本,能够将这些句子切分出来,标注时以切分出来的文件为单位,操作会容易很多。这里以央广网上,一段新闻和报纸摘要的语音为例。这段语料如下,实际录音时可能要处理的句子更长。里约奥运会进入第十一个比原创 2020-10-28 12:00:26 · 7951 阅读 · 18 评论 -
Praat脚本-021 | 获取一个目录里的指定的部分文件
今天的文章还是之前打包的一个脚本的解释,这个脚本非常简单,只有几行,功能也很简单,是为了得到一个目录里的所有文件名,这个脚本也可以作为学习如何使用、编写脚本的一个很好的例子。假设我们想知道目录E:\Biaobei_Demo里有多少个wav,并且得到这些文件名,如下:000001.wav000002.wav000003.wav000004.wav000005.wav000006.wav000007.wav000008.wav000009.wav...其实通过简单的Dos命令一句话就可原创 2020-09-23 22:59:43 · 663 阅读 · 0 评论 -
Praat脚本-002 | 获取一个目录里的所有文件名称
今天的文章还是之前打包的一个脚本的解释,这个脚本非常简单,只有几行,功能也很简单,是为了得到一个目录里的所有文件名,这个脚本也可以作为学习如何使用、编写脚本的一个很好的例子。假设我们想知道目录E:\Biaobei_Demo里有多少个wav,并且得到这些文件名,如下:000001.wav000002.wav000003.wav000004.wav000005.wav000006.wav000007.wav000008.wav000009.wav...其实通过简单的Dos命令一句话就可原创 2020-09-15 20:43:57 · 793 阅读 · 0 评论