最近在看音频相关的知识,然后就搜集了些基础知识记录下来,以便日后查看和供需要的人学习
1.音频(audio)
指人耳可以听到的声音频率在20HZ~20kHz之间的声波,称为音频。
2.音频采样(audio sample)
数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的,实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的
速率对声波进行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可以描述一段声波了,把每一
秒钟所采样的数目称为采样频率或采率,单位为HZ(赫兹)。采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围(相当于音调),
可以用数字波形表示。以波形表示的频率范围通常被称为带宽。要正确理解音频采样可以分为采样的位数和采样的频率。
注:按我的粗暴理解是,如果声音数据都采集,那就可能一段话就很多数据,数据太大了,比如夸张打比方,一段话采集来存储的话有几个G,那还得了,
所以要想办法解决,可能恰好按时间细分下来,这一段的声音区别不大,比如一秒内,我只采集几个,连起来能听出是这一秒表达的意思不就可以了嘛,
想想看,人耳对于一秒内的声音又能区别到什么程度。
3.音频采样率(aduio sample rate)
音频采样率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共
分为22.05KHz、44.1KHz、48KHz三个等级,22.05KHz只能达到FM广播的声音品质,44.1KHz则是理论上的CD音质界限,48KHz则更加精确一些。人
耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,因此音频文件格式的最大带宽是20KHZ。根据奈奎斯特的理论,只有采样频率高于
声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音,所以音频文件的采样率一般在40~50KHZ,比如最常见的CD音质采样率
44.1KHZ。
4.PCM
对声音进行采样、量化过程被称为脉冲编码调制(Pulse Code Modulation),简称PCM。PCM编码就是通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字信号。PCM数据是最原始的音频数据,完全无损,所以PCM数据虽然音质优秀但体积庞大,为了解决这个问题先后诞生了一系列的音频格式,这些音频格式运用不同的方法对音频数据进行压缩,其中有无损压缩(ALAC、APE、FLAC)和有损压缩(MP3、AAC、OGG、WMA)两种。
注:我们ios能操控的最原始的数据就是这厮,记住它!
5.通道数(channel)
即声音的通道的数目。常有单声道和立体声之分,单声道的声音只能使用一个喇叭发声(有的也处理成两个喇叭输出同一个声道的声音),立体声可以使两个喇叭都发声(一般左右声道有分工) ,更能感受到空间效果,当然还有更多的通道数。
6.帧(frame)
帧记录了一个声音单元,其长度为样本长度(采样位数)和通道数的乘积。
7.周期(cycle)
音频设备一次处理所需要的帧数,对于音频设备的数据访问以及音频数据的存储,都是以此为单位。
8.交错模式(interleaved mode)
数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录帧1的左声道样本和右声道样本,再开始帧2的记录...
9.非交错模式(non interlaced mode)
首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。
10.比特率(bit rate)
每秒的传输速率(位速, 也叫比特率)。如705.6kbps 或 705600bps, 其中的 b 是 bit, ps 是每秒的意思,表示每秒705600bit的容量。