采样率
在进行PCM编码时,需要将时间域上连续的模拟信号,通过等间隔采样(离散)成数字信号,这个等间隔采样的频率就是采样率。比如48000Hz采样率,就是1s中对模拟信号连续采样48000次。需要注意的是,要想通过采样的方式,完整的将 模拟信号采样成数字信号,采样频率必须遵循奈奎斯特采样定律:采样时钟频率必须大于等于实际模拟信号频率的2倍。比如模拟信号频率是8K,那么采样时钟频率必须大于等于16K,否则就会出现频率的混叠(模拟信号中的高于采样频率2倍的信号被采样成了低于采样频率2倍的信号)
位深(精度/宽度)
在PCM编码时,对等间隔采样的点,进行标识和存放:一次采样用多少位来存放(常见的16bit、32bit),这个位数就是位深(精度/宽度)
声道
声道指的是声波传输的通道,常见的有单声道:左声道、右声道,以及立体声(双声道:左右声道)
滤波器
滤波实现的是对特定评率波的过滤,常见的有低通滤波器、高通滤波器和带通滤波器。本质就像是过筛子,把不需要的频率波给滤除。
低通滤波器
低通滤波器:过滤掉低于某个限定频率的波,如下过滤5K以外的频率
高通滤波器
高通滤波器:过滤掉高于某个限定频率的波,如下过滤1000Hz以下频率
带通滤波器
带通滤波器:过滤区间范围外的频率,如下过滤1K~5K之外的频率
时域图
时域图:时间和信号幅度的关系(横轴是时间,纵轴是振幅),如下:
频谱图
频谱图:频率与振幅的关系
1、横轴是频率,纵轴是振幅
2、频域可以观察到不同频率的能量分布
语谱图(时频谱图)
语谱图(时频谱图):横轴是时间,纵轴是频率,能够显示能量在频率上的分布。
专业点讲,那是频谱分析视图,如果针对语音数据的话,叫语谱图。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。
可是为什么采用二维平面来表示三维信息呢?这个是有历史原因的。在数字技术发展以前,人们可视化研究语音数据的方法是把数据通过频率滤波器,然后各个频率的数据驱动相应的类似针式打印的设备按频率高低顺序记录在一卷纸上,信号的强弱由记录在纸上的灰度来表示。记录纸按照一定的速度旋转,即相当于在不同的时间里记录下语音数据
基频
声源自身振动发出的声波是基波,那基波的频率就叫做基频,通常用F0表示。比如声带发声,声带自身振动发出的这个声波就是基波,他的频率就是基频。
谐波
声源振动产生了基波,基波在输出的过程中会在声道表面反复碰撞折射,产生许多新的、频率是基波频率倍数的声波,这些声波我们通常叫做谐波。关于谐波的说明:
1、谐波是基波频率倍数的新声波;
2、谐波的频率叫做谐振频率;
3、谐波频率从低到高依次叫1次谐波、2次谐波等;
4、高次谐波是由低次谐波在声道中反复碰撞反射得到的
共振峰
声道共振形成共振峰:声音产⽣过程中,声源的振动信号通过声道时,声道本⾝也会发⽣共鸣,与声道共振频率相近的能量会被增强,远离声道共振频率的部分则会被衰减,从⽽谐波的能量就组成了⼀组⾼低起伏的形状包络,我们把这些包络中的巅峰位置叫做共振峰。共振峰的频率就是共振频率
基频用F0标识,频率由声带决定,第一个共振频率用F1标识,频率高低与气管的形状有关,气管的形状则受嘴巴开合的大小影响,嘴张的小,F1频率低,张开的大,F1频率高
第二共振频率用F2标识,它和口腔的变化有关,比如舌头位置、唇的动作有关
第三共振频率F3和口腔的先后移动有关
能量上看第一共振频率能量比第二共振频率强,但是听觉上确是第二共振频率比第一共振频率影响大
回声
声音之间需要有150ms左右的间隔,小于这个间隔,人耳虽然无法区分出来。自己发出的声音,在经过150ms以后再次听到的就是回声。