语音处理/语音识别基础(二)- 声音的存储

本文总结声音的存储,对如下问题做出回答。

1.声音有哪些属性?

2.声音转换成电脑文件(wav/mp3)的过程是怎么样的?

3.PCM格式的音频文件和WAV格式文件的内容有什么差异?

声音是物体振动产生的声波。声音通过介质(空气、固体、液体)传入到人耳中,带动听小骨振动,经过一系列的神经信号传递后,被人所感知。

声音是一种波。物体振动时会使介质(如空气)产生疏密变化,从而形成疏密相间的纵波。

频率(音调):声音1秒内周期性变化的次数

人耳的听觉范围在20Hz-20kHz。 低频的声音沉闷厚重,高频的声音尖锐刺耳。 高于 20kHz的声音为超声波。

振幅(响度):声音的大小

有的时候,我们用分贝(dB)形容声音大小。值得注意的是,dB是一个比值,是一个数值,没有任何单位标注。(功率强度之比的对数的10倍)

电脑存储声音,也叫声音的数字化,是以二进制存储的。

用到的基本技术是脉冲编码调制技术,主要包括采样、量化、编码3个基本过程。

简化表述一下声音转换成电脑文件(wav/mp3)的过程:

声音的主要物理特征是频率和振幅,频率你可以理解为说话语速的快慢,而振幅你可以理解为说话语调的高低(注意这里声音的大小可以通过音量键调节,不属于计算机需要存储的物理特征之一),

1.采样:按频率间隔记录振幅高低,这叫采样。一次震动至少要有2个采样点。

2.量化:获取到的幅度值用数字量来表示,这叫量化。

3.编码:而我们计算机是用二进制来存储数据的,也就是0和1,将量化后的信息转成二进制的0和1来存储,这就是编码。

采样,指把时间域或空间域的连续量转化成离散量的过程 。

对声音的采样常用麦克风等设备将声音信号转换成电信号,再用模/数转换器将电信号转换成一串用1和0表示的二进制数字(数字信号)。

我们每秒对声音采样上万次,获得上万个按照时间顺序排列的二进制数字。于是,我们就将连续变化不断的声音转化成了计算机可储存并识别的二进制数字。

PCM文件:原始采样值的音频数据。 pcm 文件内容不包含频率,位数,以及声道数。要播放pcm文件需要知道采样的频率,位数,以及声道数。

WAV文件头中存有 格式块(fmt)和数据块(data),数据块中存有一个个的采样值。 wav 文件相当于在pcm文件的前面加上了格式信息。 是没有压缩过的音频文件格式。

PCM/WAV 文件中的音频数据都是模拟信号对应的采样值。

描述 PCM 音频数据的参数的时候有如下描述方式:

44100HZ 16bit stereo: 每秒钟有 44100 次采样, 采样数据用 16 位(2 字节)记录, 双声道(立体声)

22050HZ 8bit  mono: 每秒钟有 22050 次采样, 采样数据用 8 位(1 字节)记录, 单声道

48000HZ 32bit 51ch: 每秒钟有 48000 次采样, 采样数据用 32 位(4 字节浮点型)记录, 5.1 声道

44100Hz 指的是采样率,它的意思是每秒取样 44100 次。采样率越大,存储数字音频所占的空间就越大。

16bit 指的是采样精度,意思是原始模拟信号被采样后,每一个采样点在计算机中用 16 位(两个字节)来表示。采样精度越高越能精细地表示模拟信号的差异。

Stereo 指的是声道数,也即采样时用到的麦克风的数量,麦克风越多就越能还原真实的采样环境(当然麦克风的放置位置也是有规定的)。

多媒体文件格式(五):PCM / WAV 格式

多媒体文件格式(五):PCM / WAV 格式 - 灰色飘零 - 博客园

一文看懂音频原理 - 哔哩哔哩

音频文件在计算机中是怎么存储的?逻辑结构是怎么样的? - 知乎

以PCM/WAV为例,首先它是若干个chunk组成的,这个chunk是什么…你可以姑且认为它是个数据包或者说数据片段。chunk有个chunk头,包含一些诸如chunk字节数、声道、采样率、位深等信息。具体的结构可以稍微搜索一下。

chunk头后面跟随的按照头里描述的chunk字节数那么多的采样数据了。

首先声音本身是机械波,一个东西发声靠的是高频震动,如同我们的声带、乐器的弦和簧片;我们听到声音是通过鼓膜接收这样的震动,再转换成神经信号。如果我们需要纪录一段声音,本质上就是要纪录震动的形式,重放的时候只需要让一个振膜还原这个震动即可(耳机、音响)。以往的磁带、黑胶唱片等都是通过纪录模拟信号来纪录声音:振膜(mic)怎么动,磁头、刻针就怎么动,记录的信息是连续的。

但是数字信号是离散的,所以就需要采样。所谓采样,就是固定间隔时间测量一下振膜的位置并纪录。每秒钟采样的次数叫做采样频率。显然采样频率无限大时,离散的数字信号就成了连续的信号,然而我们不可能存储和采集频率无限大的数字采样。

所幸,我们可以利用插值的方法来尽可能恢复原信号,其中PCM就采取的最简单的线性插值。然而当采样频率不够高时,就可能存在不同的表达。人耳的一般响应频率为20Hz-22kHz,超出的部分一般人都听不见,因此可以忽略。由耐奎斯特定理(采样定理),采样频率比信号频率的两倍还高时,信号是可以完全还原的,因此对于大多数音频,其采样频率为44.1kHz和48kHz,这样就一定能够还原大多数人可听范围内的震动信号。

然后是采样深度。我们要把采样记录下来时,存储8位,就意味着我们只能将振膜位置划分成256份;如果是16位,则可以有65536份……当然,也还可以是个浮点数,不过其本质仍旧是按位决定信息量的。采样深度即每个采样占用的位数,深度越大,采样精度越高,还原效果越好。一般常用音频采取16位(2字节)纪录一个采样。

所以此时,假设是44.1kHz 16bit的双声道采样,意味着每秒有2*44.1k*2byte=176.4kbyte/s=1411.2kbps的数据,以两个字节为一个单元,左右声道交替纪录的整数数组。其它频率、声道、深度依此类推。

当然,这仅仅是PCM格式的纪录方法。别的编码形式各有不同,如mp3就记录的是采样经过离散傅立叶变换后的频域信号,并且丢掉了一些高频部分,以此达到压缩的目的;ADPCM则是由于声音信号一般比较平滑,通过纪录一个标准采样(关键采样)后跟随若干个变化量大形式存储……但是最终都是转换为类似PCM中的采样数据交给输出端的。

声音信息的表示: 硬核音频系列(一)—— 声音信息的表示 - 国际哥的独立博客

wav 格式研究: wav格式研究_quentinliu的专栏-CSDN博客

音频编解码: 音频编解码·格式篇(1)Wave PCM audio format(WAV)_麦克船长的技术笔记-CSDN博客

m4a 格式提取: M4A格式的ID3信息提取_WeroCPP的专栏-CSDN博客_m4a音频信息读取

不同的声音是怎么存储的啊? - 知乎

MMSP Lab - Paper Abstracts 1993

MP3 (.mp3)—Wolfram Language Documentation

https://zh.wikipedia.org/wiki/%E8%84%88%E8%A1%9D%E7%B7%A8%E7%A2%BC%E8%AA%BF%E8%AE%8A

在黑胶唱片上刻下波形的轮廓就形成了唱片的律动,当我们播放这张唱片时,唱针会跟随这个波形进行播放,这会使唱机匣产生电压变化,产生类似于声音的原始波形,最终驱动扬声器发声。由于扬声器音盆会跟随波形运动,所以它能复制最初压入黑胶唱片的波形。

麦克风会拾取音频信号并将其发送到模数转化器来将音频信号转化成数字信号。计算机接收到这一串数字信息后会对其进行处理

我们听不了数字信号,所以必须将录制或处理的数字数据转换回可以通过扬声器或耳机播放的模拟信号。 因此,就需要数模转换器将数字串转换回一系列电压电平。

我们还需要将这一系列离散电压平转换成连续的波形。 我们将低通滤波器与数模转换器配合使用,来对阶梯信号进行过滤,从而使尖锐的波形边缘变得平滑,之后我们就可以将转换好的模拟信号发送到放大器/扬声器组合中了。

将模拟量用数字编码表示,PCM 是一种常见方式。

模数转换说白了是化连续为离散,在理解 PCM 过程中,只要抓住「对时间划分」和「对数量划分」这两个维度就足够了,一般用 y 轴表示时间,x 轴表示数量(值大小)。

实用语音识别基础--21世纪高等院校技术优秀教材 ISBN:711803746 作者:王炳锡 屈丹 彭煊 出版社:国防工业出版社 本书从语音识别的基本理论出发,以“从理论到实用”为主线,讲解了国际上最新、最前沿的语音识别领域的关键技术,从语料库建立、语音信号预处理、特征提取、特征变换、模型建立等方面详细介绍了语音识别系统建立的过程,并针对语音识别系统实用化的问题,给出了一些改善语音识别系统性能的关键技术,力求语音识别能走出实验室,向实用发展。   全书共分四个部分(17章),第一部分介绍语音识别的基本理论;第部分介绍实用语音识别系统建立的过程;第三部分列举了语音识别系统工程化所需的关键技术;第四部分对语音识别的4个主要应用领域进行了详尽的、深入浅出的讲解,并根据最新的研究与实验结果提供了大量的实际参数、图表,与实际工作联系紧密,具有很强的可操作性与实用性。章节之间紧密配合、前后呼应,具有很强酶系统性。同时,通过书中的研究过程和研究方法,读者能够在以后的研究工作中得到很大的启发。   本书可作为高等院校理工科通信和信息处理及相关专业的高年级本科生和(硕士、博士)研究生的教材或参考书,也可供从事信息处理、通信工程等专业的研究人员参考。   目录:   第1章 绪论   1. 1 概述   1. 2 语音识别综述   1. 3 国内外语音识别的研究现状和发展趋势   参考文献   第一部分 基本理论   第2章 听觉机理和汉语语音基础   2. 1 概述   2. 2 听觉机理和心理   2. 2. 1 语音听觉器官的生理结构   2. 2. 2 语音听觉的心理   2. 3 发音的生理机构与过程   2. 4 汉语语音基本特性   2. 4. 1 元音和辅音   2. 4. 2 声母和韵母   2. 4. 3 音调 字调   2. 4. 4 音节 字 构成   2. 4. 5 汉语的波形特征   2. 4. 6 音的频谱特性   2. 4. 7 辅音的频谱特性   2. 4. 8 汉语语音的韵律特征   2. 5 小结   参考文献   第3章 语音信号处理方法--时域处理   3. 1 概述   3. 2 语音信号的数字化和预处理   3. 2. 1 语音信号的数字化   3. 2. 2 语音信号的预处理   3. 3 短时平均能量和短时平均幅度   3. 3. 1 短时平均能量   3. 3. 2 短时平均幅度   3. 4 短时过零分析   3. 4. 1 短时平均过零率   3. 4. 2 短时上升过零间隔   3. 5 短时自相关函数和平均幅度差函数   3. 5. 1 短时自相关函数   3. 5. 2 短时平均幅度差函数   3. 6 高阶统计量   3. 6. 1 单个随机变量情况   3. 6. 2 多个随机变量及随机过程情况   3. 6. 3 高斯过程的高阶累积量   3. 7 小结   参考文献   第4章 语音信号处理方法--时频处理   4. 1 概述   4. 2 短时傅里叶变换   4. 2. 1 短时傅里叶变换的定义和物理意义   4. 2. 2 基于短时傅里叶变换的语谱图及其时频分辨率   4. 2. 3 短时傅里叶谱的采样   4. 3 小波变换   4. 3. 1 连续小波变换   4. 3. 2 进小波变换   4. 3. 3 离散小波变换   4. 3. 4 多分辨分析   4. 3. 5 正交小波包   4. 4 Wigner分布   4. 4. 1 Wigner分布的定义   4. 4. 2 Wigner分布的一般性质   4. 4. 3 两个信号和妁Wigner分布   4. 4. 4 Wigner分布的重建   4. 4. 5 Wigner分布的实现   4. 5 小结   参考文献   第5章 语音信号处理方法--倒谱同态处理   5. 1 概述   5. 2 复倒谱和倒谱   5. 2. 1 定义   5. 2. 2 复倒谱的性质   5. 3 语音信号的倒谱分析与同态解卷积   5. 3. 1 叠加原理和广义叠加原理   5. 3. 2 同态解卷特征系统和同态解卷反特征系统   5. 3. 3 同态解卷系统   5. 3. 4 语音的复倒谱及同态解卷   5. 4 避免相位卷绕的算法   5. 4. 1 最小相位信号法   5. 4. 2 递归法   5. 5 小结   参考文献   第部分 语音识别系统   第6章 语料库   6. 1 概述   6. 2 语料库的基本特征   6. 3 语料库的类型   6. 4 语音语料库   6. 4. 1 语音语料库建立. 收集和标注的意义   6. 4. 2 语音语料库的建立和收集要点   6. 4. 3 标准语音语音特性描述   6. 5 语料库的设计举例--863汉语普通话语音合成语料库的设计   6. 5. 1 语料库设计原则   6. 5. 2 语音库的标注   6. 5. 3 与语音语料库相关的文字语料库标注   6. 6 小结   参考文献   第7章 语音识别的预处理   7. 1 概述   7. 2 语音识别单元的选取   7. 2. 1 汉语音节   7. 2. 2 汉语的基本音素   7. 2. 3 汉语半音节   7. 3 自动分段--端点检测技术   7. 3. 1 基于能量的端点检测   7. 3. 2 基于LPC-10声码器的端点检测   7. 3. 3 基于信息熵的语音端点检测   7. 3. 4 基于频带方差的端点检测   7. 3. 5 基于倒谱特征的带噪语音信号端点检测   7. 3. 6 基于HMM的端点检测方法   7. 3. 7 基于分形技术的端点检测   7, 3. 8 基于自相关相似距离的端点检测   7. 3. 9 基于迟滞编码的端点检测   7. 3. 10 实时端点检测算法   7. 4 小结   参考文献   第8章 语音信号特征参数   8. 1 概述   8. 2 基音周期   8. 2. 1 自相关法及其改进   8. 2. 2 并行处理法   8. 2. 3 倒谱法   8. 2. 4 简化逆滤波法   8. 3 线性预测参数   8. 3. 1 线性预测信号模型   8. 3. 2 线性预测误差滤波   8. 3. 3 语音信号的线性预测分析   8. 3. 4 线性预测分析的解法   8. 3. 5 斜格法及其改进   8. 4 线谱对 LSP 参数   8. 4. 1 线谱对分析原理   8. 4. 2 线谱对分析的求解   8. 5 LPCC参数   8. 6 mfcc参数   8. 7 ASCC参数   8. 8 感觉加权的线性预测 PLP 特征   8. 8. 1 PLP参数   8. 8. 2 RASTA-PLP参数   8. 9 动态差分参数   8. 10 高阶信号谱类特征   8. 10. 1 WV谱的定义及其主要性质   8. 10. 2 WV谱计算式的一些变形   8. 11 小结   参考文献   第9章 特征变换   9. 1 概述   9. 2 线性判别分析 LDA   9. 2. 1 线性判别分析的概念   9. 2. 2 广义线性判别函数   9. 2. 3 Fisher线性判别   9. 2. 4 多类问题   9. 3 主分量分析 PCA   9. 3. 1 基于K-L变换的主分量分析   9. 3. 2 随机向量的K-L展开   9. 3. 3 基于K-L变换的降维   9. 4 独立分量分析 ICA   9. 4. 1 引言   9. 4. 2 线性独立分量分析   9. 4. 3 线性独立分量分析算法   9. 4. 4 独立分量分析的预处理   9. 4. 5 非线性独立分量分析   9. 5 小结   参考文献   第10章 语音识别的模型   10. 1 概述   10. 2 动态时间规整 DTW   10. 2. 1 动态规划技术 DP   10. 2. 2 DTW算法的改进   10. 3 隐马尔可夫模型 HMM   10. 3. 1 隐马尔可夫模型的定义   10. 3. 2 HMM中的3个基本问题及其解决方案   10. 3. 3 隐马尔可夫模型的类型   10. 3. 4 HMM算法实现的问题   10. 4 分类模型 SVM   10. 4. 1 引言   10. 4. 2 学习问题   10. 4. 3 学习过程一致性的条件   10. 4. 4 学习过程收敛速度的界   10. 4. 5 结构风险最小归纳原理   10. 4. 6 支持向量机   10. 5 人工神经网络   10. 5. 1 引言   10. 5. 2 神经元的基本模型   10. 5. 3 前向网络   10. 5. 4 反馈网络   10. 6 高斯混合模型 GMM   10. 6. 1 高斯混合模型的定义   10. 6. 2 参数调整算法--em算法   10. 7 小结   参考文献   第三部分 语音识别中关键处理技术   第11章 说话人自适应和说话人归一化技术   11. 1 概述   11. 2 自适应方式的分类   11. 3 MLLR算法介绍   11. 3. 1 语音特征空间的划分   11. 3. 2 参数的估计   11. 3. 3 对均值矢量的变换   11. 4 MAP算法介绍   11. 4. 1 MAP算法准则   11. 4. 2 MAP算法公式推导   11. 4. 3 MAP算法讨论   11. 5 说话人归一化技术   11. 5. 1 说话人归一化技术原理   11. 5. 2 声道长度归一化 VTLN   11. 6 小结   参考文献   第12章 噪声抑制   12. 1 概述   12. 2 基于小波变换的噪声抑制   12. 2. 1 利用小波变换去除周期性噪声   12. 2. 2 利用小波变换去除冲激噪声   12. 2. 3 利用小波变换去除宽带噪声   12. 2. 4 小波去噪方法的分析   12. 3 基于EVRC编码的噪声抑制   12. 4 基于HMM模型的噪声补偿   12. 5 小结   参考文献   第13章 信道补偿   13. 1 概述   13. 2 稳健语音识别技术   13. 2. 1 稳健语音识别的提出   13. 2. 2 稳健语音识别的研究现状   13. 3 信道补偿技术的主要方法   13. 3. 1 经验补偿技术   13. 3. 2 盲补偿   13. 3. 3 基于特征及模型的补偿   13. 4 信道补偿技术在语音识别中的应用   13. 4. 1 信道补偿技术在汽车内语音识别中的应用   13. 4. 2 基于信道补偿的电话语音识别   13. 5 小结   参考文献   第四部分语音识别应用   第14章 说话人识别   14. 1 概述   14. 2 说话人识别的基本原理   14. 2. 1 说话人识别系统的典型结构   14. 2. 2 技术原理   14. 3 说话人识别的特征选择   14. 3. 1 说话人识别系统中常用的特征   14. 3. 2 特征参数的统计评价   14. 4 说话人识别的主要方法   14. 4. 1 模板匹配法   14. 4. 2 概率统计方法   14. 4. 3 辨别分类器方法   14. 4. 4. 混合方法   14. 5 判决规则与性能评价标准   14. 5. 1 说话人辨认   14. 5. 2 说话人确认 检测   14. 6 说话人识别中的稳健技术   14. 7 系统举例   14. 7. 1 GMM说话人辨认算法   14. 7. 2 SVM-GMM混合模型   14. 7. 3 CMM-UBM说话人确认   14. 8 小结   参考文献   第15章 关键词识别   15. 1 概述   15. 2 关键词识别及其与连续语音识别的关系   15. 3 关键词识别原理   15. 3. 1 关键词识别系统组成   15. 3. 2 关键词识别的基本问题   15. 3. 3 关键词识别系统的主要技术难点   15. 4 搜索策略   15. 4. 1 语音起始和结束点的粗判   15. 4. 2 帧同步的Viterbi解码算法   15. 4. 3 加入驻留惩罚的改进Viterbi解码算法   15. 4. 4 语法节点处的路径合并   15. 4. 5 回溯   15. 5 识别结果的确认   15. 5. 1 置信度的原理   15. 5. 2 利用反词模型的拒识方法   15. 5. 3 利用识别结果本身信息的拒识方法   15. 6 系统实现   15. 6. 1 训练和识别系统框图   15. 6. 2 训练系统的具体实现   15. 6. 3 识别系统的具体实现   15. 7 小结   参考文献   第16章 语言辨识   16. 1 概述   16. 1. 1 语言辨识的原理   16. 1. 2 语言辨识技术研究发展的历史   16. 2 语言辨识所需要的有用信息   16. 3 针对自动语言辨识的知觉研究   16. 4 语言辨识的主要方法   16. 4. 1 频谱相似性方法   16. 4. 2 基于韵律信息的方法   16. 4. 3 基于音素识别的方法   16. 4. 4 基于多语言语音单元的方法   16. 4. 5 单词层次方法   16. 4. 6 基于连续语音识别的方法   16. 4. 7 元音系统模型   16. 5 语言辨识系统举例   16. 5. 1 基于GMM-UBM模型的语言辨识系统   16. 5. 2 基于最小分类误差准则的语言辨识系统   16. 5. 3 基于说话人聚类和高斯混合模型的语言辨识系统   16. 5. 4 基于时频主分量分析和高斯混合模型的语言辨识系统   16. 5. 5 基于高斯混合元模型的语言辨识系统   16. 6 语言辨识系统评估   16. 7 小结   参考文献   第17章 连续语音识别   17. 1 概述   17. 2 连续语音识别整体模型   17. 3 声学模型   17. 3. 1 语音识别单元的选取   17. 3. 2 基于予词单元HMM的训练   17. 4 连续语音识别中的搜索策略   17. 4. 1 传统的帧同步算法   17. 4. 2 基于统计知识的帧同步搜索算法原理   17. 4. 3 受词法约束的词搜索树   17. 4. 4 连续语音识别中的双层搜索网络   17. 5 语言模型   17. 5. 1 基于规则的方法   17. 5. 2 基于统计的方法   17. 5. 3 N-gram模型的平滑   17. 5. 4 基于文法规则的方法和基于统计的方法相结合   17. 6 小结   参考文献   附录 英汉名词对照
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值