【第1篇】人工智能(AI)语音测试原理和实践

8 篇文章 0 订阅
3 篇文章 1 订阅

第1章第1节   人工智能语音测试介绍 

        本章首先介绍语音的基本概念及语音的产生原理,然后介绍什么是人工智能语音、人工智能语音交互和人工智能语音测试,最后阐述人工智能语音测试的目的和意义,引领大家走入人工智能语音测试的世界。

目录

第1章第1节   人工智能语音测试介绍 

1.1  语音简介

1.1.1  语音的基本概念


1.1  语音简介

语音是语言的物质材料,是由人的发声器官发出的具有一定语法和意义的声音。学习人工智能语音测试,了解语音的基本概念非常必要。

1.1.1  语音的基本概念

1. 音素

语音中最小的基本单位是音素,音素是人类能区别一个单词和另一个单词的基础。音素构成音节,音节又构成不同的词和短语。音素分为元音和辅音。对汉语来说,一般直接用全部声母和韵母作为音素集。对英语来说,一般使用卡内基梅隆大学的一套由39个音素构成的音素集。比如,“普通话”三个字,可以分成“p, u, t, o, ng, h, u, a”等八个音素。

2. 音节

一个音素单独存在或几个音素结合起来,叫作音节。可以从听觉上区分,汉语一般是一字一音节,少数的有两字一音节(如“花儿”)和两音节一字。如表1-1所示。

表1-1  音节说明

序号

单  元  名

说    明

1

音节

汉语:1300个音节,408个无调音节

2

汉语是单音节语音,英语是多音节语音

3

汉语音节由3部分组成:声母(23个),韵母(28个),声调(4声)

3. 元音

元音又称母音,是音素的一种,与辅音相对。元音是在发音过程中由气流通过口腔而不受阻碍发出的音。不同的元音是由口腔不同的形状造成的(元音和共振峰关系密切)。

4. 辅音

辅音又称子音,是气流在口腔或咽头受到阻碍而形成的音。不同的辅音是由发音部位和发音方法的不同造成的。

5. 清音

清音和浊音的概念在文献中涉及较多。严格来讲,很多特征的提取都需要区分清音和浊音。当气流通过声门时,如果声道中某处面积很小,气流高速冲过此处时产生湍流,当气流速度与横截面积之比大于某个临界速度便产生摩擦音,即清音。简单来说,发清音时声带不振动,因此清音没有周期性。清音由空气摩擦产生,在分析研究时等效为噪声。

6. 浊音

语音学中,将发音时声带振动的产生音称为浊音。辅音有清有浊,而多数语言中的元音均为浊音。浊音具有周期性。 发清音时声带完全舒展,发浊音时声带紧绷在气流作用下作周期性动作。

7. 声强和声强级

在物理学中,把单位时间内通过垂直于声波传播方向的单位面积的平均声能,称为声强。声强用I表示,单位为瓦/平米。实验的研究表明,人对声音强弱的感觉并不是与声强成正比,而是与其对数成正比的,所以一般声强用声强级来表示,声强级的常用单位是分贝(dB)。

8. 响度(俗称:音量)

响度是一种主观心理量,是人类主观感觉到的声音强弱程度。一般来说,声音频率一定时,声强越强,响度也越大。但是响度与频率有关,相同的声强,频率不同时,响度也可能不同。响度若用对数值表示,即为响度级,响度级的单位定义为方,符号为phon。

9. 音高(俗称:音调)

音高也是一种主观心理量,是人类听觉系统对于声音频率高低的感觉,音高的单位是美尔(Mel)。声音的高低(高音、低音),由“频率”决定,频率越高音调越高(频率单位Hz)。

10. 音色(俗称:音质)

音色也是一种主观心理量,是人类听觉系统对于声音品质的感觉。声音的波形决定了声音的音色。声音因不同物体材料的特性而具有不同特性,音色本身是一种抽象的东西,但波形是把这个抽象直观的表现。音色不同,波形则不同。典型的音色波形有方波,锯齿波,正弦波,脉冲波等。不同的音色,通过波形,完全可以分辨的。

11. 共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。

元音和响辅音声谱包络曲线上的峰巅位置。共振峰的本义是指声腔的共鸣频率。在元音和响辅音的产生中,声源谱经过声腔的调制,原来谐波振幅不再随频率的升高而依次递减,而是有的加强,有的减弱,形成有起伏的新的包络曲线,曲线峰巅位置的频率值和声腔共鸣频率是一致的。就元音来说,头三个共振峰对其音色有质的规定性。其中头两个共振峰对舌位的高低前后特别敏感,声学元音图就是根据这两个共振峰的频率值绘制的。共振峰三维语图上表现为能量集中的横杠。

共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰。

共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱的包络中。

12. 基音周期

(1)基音周期的概念

人在发音时,声带振动产生浊音(清音由空气摩擦产生)。浊音的发音过程是:来自肺部的气流冲击声门,造成声门的一张一合,形成一系列准周期的气流脉冲,经过声道(含口腔、鼻腔)的谐振及唇齿辐射最终形成语音信号。故浊音波形呈现一定的准周期性。所谓基音周期,就是对这种准周期而言的。它反映了声门相邻两次开闭之间的时间间隔或开闭的频率。

基音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。基音周期信息在语音识别、说话人识别、语音分析与语音合成,以及低码率语音编码等多个领域有着广泛的应用。

(2)基音周期的估算方法

基音周期的估算方法很多,比较常用的有自相关法,倒谱法(我们提取基频时用到的倒谱法),平均幅度差函数法,线性预测法,小波—自相关函数法,谱减—自相关函数法等。

13. 语音识别中的“状态”

状态这里可以理解成比音素更细致的语音单位。通常把一个音素划分成3个状态。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
清华大学的精品AI人工智能课程的第8章主题是循环神经网络。循环神经网络(Recurrent Neural Network, RNN)是一种用于处理序列数据的神经网络模型。相比于传统的前馈神经网络,RNN能够记住之前的信息,并将其传递到当前的状态中,这使得RNN在处理具有时间依赖性的数据时表现出优势。 在本章中,我们将深入理解RNN的工作原理和其应用。首先,我们会介绍RNN的基本结构,包括输入层、隐藏层和输出层。然后,我们会介绍循环结构的实现方式,包括Vanilla、LSTM和GRU等。接下来,我们会学习如何在文本生成、情感分析和语音识别等任务中应用RNN。此外,我们还会讨论RNN的一些常见问题,例如梯度消失和梯度爆炸等,以及如何解决这些问题。 在学习过程中,我们会通过一些示例和习题加深对所学知识的理解。例如,在文本生成任务中,我们可以使用RNN生成一段新的文字,可以通过编写习题来练习这个任务。同时,我们还会涉及到一些实际应用案例,例如用RNN进行自动写诗和实现智能聊天机器人等。 总之,清华大学精品AI人工智能课程第8章循环神经网络是一个全面而深入的学习资源,旨在帮助学生全面了解并掌握循环神经网络的基本原理、应用和解决方案。通过学习该章节,学生将能够在实践中灵活运用RNN进行序列数据处理,并解决相关问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

玻璃杯1992

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值