【第1篇】人工智能（AI）语音测试原理和实践

玻璃杯1992

已于 2022-11-05 13:58:20 修改

阅读量981

点赞数 2

分类专栏： AI测试语音唤醒 jmeter 文章标签：人工智能语音识别 ai

于 2022-09-03 14:46:22 首次发布

本文链接：https://blog.csdn.net/qq_23150755/article/details/126642876

版权

AI测试同时被 3 个专栏收录

8 篇文章 3 订阅

订阅专栏

jmeter

8 篇文章 0 订阅

订阅专栏

语音唤醒

3 篇文章 1 订阅

订阅专栏

第1章第1节人工智能语音测试介绍

本章首先介绍语音的基本概念及语音的产生原理，然后介绍什么是人工智能语音、人工智能语音交互和人工智能语音测试，最后阐述人工智能语音测试的目的和意义，引领大家走入人工智能语音测试的世界。

目录

第1章第1节人工智能语音测试介绍

1.1 语音简介

1.1.1 语音的基本概念

1.1 语音简介

语音是语言的物质材料，是由人的发声器官发出的具有一定语法和意义的声音。学习人工智能语音测试，了解语音的基本概念非常必要。

1.1.1 语音的基本概念

1. 音素

语音中最小的基本单位是音素，音素是人类能区别一个单词和另一个单词的基础。音素构成音节，音节又构成不同的词和短语。音素分为元音和辅音。对汉语来说，一般直接用全部声母和韵母作为音素集。对英语来说，一般使用卡内基梅隆大学的一套由39个音素构成的音素集。比如，“普通话”三个字，可以分成“p, u, t, o, ng, h, u, a”等八个音素。

2. 音节

一个音素单独存在或几个音素结合起来，叫作音节。可以从听觉上区分，汉语一般是一字一音节，少数的有两字一音节（如“花儿”）和两音节一字。如表1-1所示。

表1-1 音节说明

序号	单元名	说明
1	音节	汉语：1300个音节，408个无调音节
2		汉语是单音节语音，英语是多音节语音
3		汉语音节由3部分组成：声母（23个），韵母（28个），声调（4声）

3. 元音

元音又称母音，是音素的一种，与辅音相对。元音是在发音过程中由气流通过口腔而不受阻碍发出的音。不同的元音是由口腔不同的形状造成的（元音和共振峰关系密切）。

4. 辅音

辅音又称子音，是气流在口腔或咽头受到阻碍而形成的音。不同的辅音是由发音部位和发音方法的不同造成的。

5. 清音

清音和浊音的概念在文献中涉及较多。严格来讲，很多特征的提取都需要区分清音和浊音。当气流通过声门时,如果声道中某处面积很小，气流高速冲过此处时产生湍流，当气流速度与横截面积之比大于某个临界速度便产生摩擦音，即清音。简单来说，发清音时声带不振动，因此清音没有周期性。清音由空气摩擦产生，在分析研究时等效为噪声。

6. 浊音

语音学中，将发音时声带振动的产生音称为浊音。辅音有清有浊，而多数语言中的元音均为浊音。浊音具有周期性。发清音时声带完全舒展，发浊音时声带紧绷在气流作用下作周期性动作。

7. 声强和声强级

在物理学中，把单位时间内通过垂直于声波传播方向的单位面积的平均声能，称为声强。声强用I表示，单位为瓦/平米。实验的研究表明，人对声音强弱的感觉并不是与声强成正比，而是与其对数成正比的，所以一般声强用声强级来表示，声强级的常用单位是分贝（dB）。

8. 响度（俗称：音量）

响度是一种主观心理量，是人类主观感觉到的声音强弱程度。一般来说，声音频率一定时，声强越强，响度也越大。但是响度与频率有关，相同的声强，频率不同时，响度也可能不同。响度若用对数值表示，即为响度级，响度级的单位定义为方，符号为phon。

9. 音高（俗称：音调）

音高也是一种主观心理量，是人类听觉系统对于声音频率高低的感觉，音高的单位是美尔（Mel）。声音的高低（高音、低音），由“频率”决定，频率越高音调越高（频率单位Hz）。

10. 音色（俗称：音质）

音色也是一种主观心理量，是人类听觉系统对于声音品质的感觉。声音的波形决定了声音的音色。声音因不同物体材料的特性而具有不同特性，音色本身是一种抽象的东西，但波形是把这个抽象直观的表现。音色不同，波形则不同。典型的音色波形有方波，锯齿波，正弦波，脉冲波等。不同的音色，通过波形，完全可以分辨的。

11. 共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道（共振腔）的物理特征。

元音和响辅音声谱包络曲线上的峰巅位置。共振峰的本义是指声腔的共鸣频率。在元音和响辅音的产生中，声源谱经过声腔的调制，原来谐波振幅不再随频率的升高而依次递减，而是有的加强，有的减弱，形成有起伏的新的包络曲线，曲线峰巅位置的频率值和声腔共鸣频率是一致的。就元音来说，头三个共振峰对其音色有质的规定性。其中头两个共振峰对舌位的高低前后特别敏感，声学元音图就是根据这两个共振峰的频率值绘制的。共振峰三维语图上表现为能量集中的横杠。

共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数，已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般认为谱包络中的最大值就是共振峰。

共振峰参数包括共振峰频率、频带宽度和幅值，共振峰信息包含在语音频谱的包络中。

12. 基音周期

（1）基音周期的概念

人在发音时，声带振动产生浊音（清音由空气摩擦产生）。浊音的发音过程是：来自肺部的气流冲击声门，造成声门的一张一合，形成一系列准周期的气流脉冲，经过声道（含口腔、鼻腔）的谐振及唇齿辐射最终形成语音信号。故浊音波形呈现一定的准周期性。所谓基音周期，就是对这种准周期而言的。它反映了声门相邻两次开闭之间的时间间隔或开闭的频率。

基音周期是语音信号最重要的参数之一，它描述了语音激励源的一个重要特征。基音周期信息在语音识别、说话人识别、语音分析与语音合成，以及低码率语音编码等多个领域有着广泛的应用。

（2）基音周期的估算方法

基音周期的估算方法很多，比较常用的有自相关法，倒谱法（我们提取基频时用到的倒谱法），平均幅度差函数法，线性预测法，小波—自相关函数法，谱减—自相关函数法等。

13. 语音识别中的“状态”

状态这里可以理解成比音素更细致的语音单位。通常把一个音素划分成3个状态。

玻璃杯1992

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
【第1篇】人工智能（AI）语音测试原理和实践

本章首先介绍语音的基本概念及语音的产生原理，然后介绍什么是人工智能语音、人工智能语音交互和人工智能语音测试，最后阐述人工智能语音测试的目的和意义，引领大家走入人工智能语音测试的世界。
复制链接

扫一扫