基频微扰与振幅微扰Jitter and shimmer

BarbaraChow

已于 2023-09-13 16:32:36 修改

阅读量1.8k

点赞数

分类专栏：信号处理语音合成语音基础知识文章标签：语音识别人工智能音频

于 2023-04-21 11:50:32 首次发布

本文链接：https://blog.csdn.net/qq_36002089/article/details/130283758

版权

信号处理同时被 3 个专栏收录

45 篇文章 38 订阅

订阅专栏

语音基础知识

32 篇文章 31 订阅

订阅专栏

语音合成

13 篇文章 3 订阅

订阅专栏

Jitter and Shimmer

基频微扰(jitter)和振幅微扰(shimmer)是衡量嗓音特征的重要参数。jitter指相邻周期间声波频率的变化率，反映声带振动周期间频率的差异，体现声带振动的不规律性；shimmer是指相邻周期间振幅的变化率，反映声带振动周期间振幅的差异，体现声带振动的不稳定性。
自Lieberman在1961年首次提出使用二者作为嗓音特征参数后，jitter和shimmer被广泛应用于语音学和临床医学研究。

jitter和shimmer代表的嗓音控制能力与语言演化，尤其是声调语言的产生有着密切的关系。
在这里插入图片描述

背景

声源类型（Voice Quality）

声源类型是人们言语交流传输信息的一个重要手段，表现在：
1）在某些语言内有区分音节意义的作用（不同振动方式/频率）；
2）包含了丰富的副语言层的信息，被认为和情感的变化密切相关；
3）声源类型是超语言层信息的载体。
对其的分析可以找出和情感之间的关系，区分各情感中的声源分布模式，并应用在实际的情感语音合成中，从而可以提升合成语音的表现力；并能作为情感通过大脑控制生理器官运动的参数，对情感的生理研究起到辅助作用。

声源类型指的是人说话时声带振动的不同方式。
常见的声源类型有：正常嗓音（Modal voice）、吱嘎音(Creaky voice)、假声（Falsetto）、耳语（Whisper voice）、气嗓音（Breathy voice）等。
例如：在墨西哥的马萨特克人（Mazatec）的语言里，（modal voice）的意思是“大树”, （breathy voice）的意思是“他穿”，（creaky voice）的意思则是“他携带”。由此可见，即使声音相同，只是声源不同，在这种语言里是代表不同的意思的。

声带振动频率的不同，发出的声音高低也不一样。汉语中声调的高低升降变化，就是通过控制声带松紧来实现的。
例如：汉语普通话中，妈麻马骂，拼音都是/ma/，但声调不同意义不同。

基频抖动

什么是基频抖动？
在很多领域都用到了jitter这个概念，比如在网络通信领域，delay jitter就是由网络拥塞，定时漂移，或路由改变所引起的数据包到达时间的变化；在数字信号处理领域，抖动是高频数字信号中脉冲某处的偏离或位移，也可以理解成不稳定的脉冲。
在语音学领域，jitter则是描述测量到的基频值的变化程度，是由相邻一段时间内的基频值来推测出当前的基频值这个预测出来的结果和实际基频之间的差。

Jitter
抖动是对声带振动频率不规则程度的测量。
抖动主要是由于对声带的振动缺乏控制造成的;病态患者的声音通常有更高比例的抖动。大多数研究人员认为，年轻人持续发声的典型值变化在0.5 - 1.0%之间。
即使一个人努力唱一个特定的音符，并保持一个恒定的音高，声带振动的速度也会有轻微的不规则性，因此随着时间的推移，音高也会有所变化。歌手有时会注意到这一点，例如当他们累了的时候。通过训练，歌手们努力将这些声音中的不规则性或抖动降到最低。高抖动可由多种影响声带的情况引起，包括结节、息肉和喉部肌肉无力。如果你是一个歌手，你会想要一个非常稳定的声音，因此非常低的抖动测量。
有几种方法可以计算抖动的大小，这是在OperaVOX中测量的，作为连续声带振动频率从其共同平均值的百分比变化。抖动越高，声音听起来就越不正常。高抖动值(超过1%或2%)可能表明你的声音有问题，例如喉咙发炎。

shimmer
微扰是通过测量由声带振动产生的几个声波的响度或振幅的变化来计算的。OperaVOX测量连续声带振动响度的平均(绝对)差除以共同平均值。微扰是衡量特定音高随时间变化的不规律程度。
微扰随着声门阻力和声带肿块病变的减少而改变，并与噪音排放和呼吸的存在相关。如guimar所说，成人的值低于3%，儿童的值约为0.4%和1%，被认为是病理性声音。
即使一个人努力唱一个特定的音符并保持它不变，随着时间的推移，它的响度也会有轻微的变化。这是对声带振动的短期不规则性的一种测量。
与抖动类似，微扰是通过测量由声带振动产生的几个声波的响度或振幅的变化来计算的。OperaVOX测量连续声带振动响度的平均(绝对)差除以共同平均值。Shimmer增加(例如超过3%)可能是一些影响声带的情况的结果，包括结节、息肉和喉部肌肉无力。

产生基频抖动的原因？
物理上原因主要有：人的声带肌肉上粘液分布的改变、声带肌肉紧张度，通过声门气流的体积速度等等。
F0 Jitter是由生理器官的作用才产生，比如情感的变化会导致声带肌肉紧张度，气流的体积速度，声道表面的坚硬或柔软等发生变化，从而产生基频抖动现象。
生理上的原因（带有个人信息的，也是在某人说话中不会发生变化的部分），情感的突变（基频的变化，声源的变化），声调的变化，音强的变化等等。

基频抖动有什么用？
基频抖动语音合成上的作用很重要，如果在合成出来的语句中没有抖动，听上去有很大的机器味。

基频抖动如何建模？
Jitter的分类：自然界的规律都可分解为两个分量，一个是完全随机的平稳的分量，另一部分是确定性的，非平稳的，和某些事件相关联的，人们受到的是两者都作用的结果。
总Jitter(TJ)也能按照这个原则分为两类：Random Jitter(RJ)和Deterministic Jitter(DJ)。DJ的产生必然有一个理由，在这里我们主要关注的是情感变化。 RJ是许多小随机事件的累加，比如说左右声带的不对称，声带上粘液的影响，气流造成的湍流噪音，等等。由大数定理，总的RJ是高斯分布。

谐波噪声比HNR
HNR是对组成一段浊音的周期分量和非周期分量之间比例的评估。第一个分量来自声带的振动，第二个分量来自声门噪音，以分贝表示。这两个分量之间的评价反映了语音的效率，即从肺部排出的气流转化为声带振动的能量越大。在这些情况下，HNR会更大。因此，一个声音的特点是高HNR，这是与高音和和声有关的声音。低HNR表示声音虚弱和发音困难。也就是说，HNR值小于7dB被认为是病理的。

语音中的情感信息

一般来说，语音中的情感特征往往通过语音韵律的变化表现出来。例如，当一个人发怒的时候，讲话的速率会变快，音量会变大，音调会变高等，同时一些音素特征（共振峰、声道截面函数等）也能反映情感的变化。为了便于处理，通常将情感语音的声学特征直接分为三类：韵律类、音质类和清晰度类。

韵律类：
包括平均基频，基频范围，重音的突变特性，停顿的连贯性，语速，重音频度，音强，音节基频高线倾斜程度，音节基频低线倾斜程度，基频抖动等。

平均基频：整个语句的基频（F0）平均值，根据语音信号分析声带的共振频率。
基频范围：整个语句的基频范围，基频范围在很大程度上能够反映人的情绪状态。
重音的突变特性：在情感语句中，重音多体现情感焦点特性，经常由情感关键词承载。
重音频度：重音的频度在一定程度上能够体现情感状态的持续性。
停顿的连贯性：用以表示语句的停顿是否连贯。人在情绪受到压抑或快速膨胀时，有时会出现由于概念表述不清而导致的语气断续特征。
语速：用以表征语气的缓急程度，人在焦急、恐惧时多出现语速加快的现象，有时欢快的语气也能带来类似效果。
音强：实验证明在情感语音中，音强的变化往往表现出与基频范围变化的一致性。但是相对基频变化来说，大部分音强变化并不明显。
音节基频高线倾斜程度：语句中音节基频高点连线的变化情况（上升、水平和下降）。
-音节基频低线倾斜程度：语句中音节基频低点连线的变化情况（上升、水平和下降）。
基频抖动：焦虑语音会出现“F0抖动”现象，这一现象描述了基频从一个区域到另一个区域之间快速和反复的变化。在此情况下，有时音节会失去其固有调型。

音质类：
来表征不同情感状态下语音音质发生的变化。

呼吸声：在语音流中，出现呼吸气等声音。当一个人处于紧张或欢快状态时会出现的快速呼吸停顿，或一个人由于恐惧而牙齿紧压会产生的回旋气流噪声。
明亮度：低频能量和高频能量的比值，用以反映语音的清亮特性。
喉化度：发音时声门出现不连续的脉冲震动特性，经常出现在极度恐惧的情感状态中。

清晰度类：
可分为正常、焦急、模糊和准确。清晰度描述了元音质量的变化和清辅音是否变化为相应的浊辅音。
情感信息与人的声道同样具有一定的关联。清晰度可分为正常、焦急、模糊和准确。清晰度描述了元音质量的变化和清辅音是否变化为相应的浊辅音。比如：人在厌恶时，有时说话“嘟嘟囔囔”，表达不清。

以上这些声学上的参数都是从一个侧面反映了语音的情感特性，在实际应用中（情感语音合成，语音的情感识别等）需要将这些参数统一整合起来才能正确的反映情感的整体性质。

基频抖动在情感语音合成中的作用

从情感的角度来说，影响jitter分布的因素有基频值的强烈变化，声源类型的不同，重音模式的变化等等。这些因素的实现是靠着生理器官的作用才得以完成，比如情感的变化通常会使大脑产生导致声带肌肉紧张度，气流的体积速度，声道表面的坚硬或柔软的变化的命令。

本文认为，在不同的说话模式下（情感、声源类型乃至汉语中的声调），都有其特有的基频抖动分布模式。统计本文所用到的语料库中的语料，得出如下的结果：

在不同的情感中，基频抖动大小的方差按从大到小的顺序排序为：
难过〉害怕〉生气〉愉快〉中性
在不同的声源类型中，基频抖动大小的方差按从大到小的顺序排序为：
Breathy> Whisper> Creaky> Lax Creaky> Tense> Bright> Modal
在汉语不同的声调中，基频抖动大小的方差按从大到小的顺序排序为：
上声〉去声〉阳平〉阴平

由此可见，在不同的讲话模式中，基频抖动的分布类型也是不同的，在语音合成中，如果没有基频抖动的作用，听上去会有很大的机器味。为了增加合成出的语音的表现力和自然度，基频抖动是必不可少的参数之一。

基频抖动建模方法

从 jitter 的定义：“jitter 是实际值偏离理想值的大小”，我们采用了如下的 jitter计算方法：

a, 将原基频曲线平滑，作为目标曲线。
b, 为了避免量化误差，平滑后的曲线进行插值操作。
c, 从原始数据中提取未经平滑的基频曲线（由于用机器提取到的基频值并不十分准确，需要手动修改机器提出的原基频曲线，使之尽可能的描述真实声门的即时基频）
d, 将第三步的结果减去第二步的结果，所得到的残差可以近似的认为是即时频率偏离理想基频走势的值，也就是我们这里所讲的 Jitter。
e, 由于 jitter 的绝对偏差值和声调的高低也有关系，在同样前提下，jitter 的偏差值和 F0 的高低成正比。为了减少 F0 高低的影响，我们采用了相对 jitter 的办法，也就是将减得的结果除以预计值然后乘以 100%。

该方法对害怕、悲伤、生气、高兴等的基频抖动建模。
在这里插入图片描述
各种情感的 jitter 的方差从大到小排序为：
难过，害怕，生气，高兴，中性

对普通话四个声调的jitter分析
在这里插入图片描述

各声调的基频抖动分布图：
在这里插入图片描述

各种声调的 jitter 的方差从大到小排序为：
上声，去声，阳平，阴平

补充

以下4个特征为医学中常用的检查嗓部病变的特征。

谐噪比：

HNR（Harmonics-to-Noise ratio）是语音中谐波成分和噪声成分的比率。是检测病态嗓音和评价嗓音素质的一个客观指标，能有效地反应声门闭合情况。需要注意的是这里的噪声不是环境噪声，而是发声时由于声门非完全关闭引起的声门噪声。
频率微扰（jitter）

频率微扰是描述相邻周期之间声波基本频率变化的物理量。主要反映粗糙声程度，其次反映嘶哑声程度。
语音信号中的频率微扰与声门区的功能状态是一致的。正常嗓音周期间的频率相同者较多，不同者甚少，因此频率微扰值很小。当发生声带病变时，微扰值增大，使声音粗糙。
振幅微扰（shimmer）

振幅微扰描述相邻周期之间声波幅度的变化，主要反映嘶哑声程度。Jitter和shimmer共同反映声带振动的稳定性，其值越小说明在发声过程中声学信号出现的微小变化越少。
规范化噪声能量（NNE）

主要计算发声时由于声门非完全关闭引起的声门噪声的能量。主要反映气息声程度，其次是嘶哑声程度，一定程度上反映声门的关闭程度，对由于声带器质性或功能性病变而产生的病理嗓音的分析很有价值。