声音我们听到的是连续的,如果将自然界的声音要录制到计算机中,并且将声音能够播放出来,那么肯定就要将这些信息以数字信号表示出来,也就是说,录音时我们说的模拟信号通过计算机转为了数字信号,在听这些声音时,是将数字信号转为了模拟信号.
从数字转为模拟,有相关的一些术语.
采样频率:
声音是波形,模拟信号,数字信号就是在原有的模拟信号波形上每隔一段时间进行一次“取点”,赋予每一个点以一个数值,这就是“采样”,然后把所有的“点”连起来就可以描述模拟信号了,很明显,在一定时间内取的点越多,描述出来的波形就越精确,这个尺度我们就称为“采样频率”。我们最常用的采样频率是44.1kHz,它的意思是每秒取样44100次。定义: 每秒取样的个数叫做采样频率.
比特:
比特率是大家常听说的一个名词,数码录音一般使用16比特、20比特或24比特制作音乐。什么是“比特”?我们知道声音有轻有响,影响声音响度的物理要素是振幅,作为数码录音,必须也要能精确表示乐曲的轻响,所以一定要对波形的振幅有一个精确的描述。“比特(bit)”就是这样一个单位,16比特就是指把波形的振幅划为2^16即65536个等级,根据模拟信号的轻响把它划分到某个等级中去,就可以用数字来表示了。和采样频率一样,比特率越高,越能细致地反映乐曲的轻响变化。20比特就可以产生1048576个等级,表现交响乐这类动态十分大的音乐已经没有什么问题了。刚才提到了一个名词“动态”,它其实指的是一首乐曲最响和最轻的对比能达到多少,我们也常说“动态范围”,单位是dB,而动态范围和我们录音时采用的比特率是紧密结合在一起的,如果我们使用了一个很低的比特率,那么就只有很少的等级可以用来描述音响的强弱,当然就不能听到大幅度的强弱对比了。动态范围和比特率的关系是;比特率每增加1比特,动态范围就增加6dB。所以假如我们使用1比特录音,那么我们的动态范围就只有6dB,这样的音乐是不可能听的。16比特时,动态范围是96dB。这可以满足一般的需求了。20比特时,动态范围是120dB,对比再强烈的交响乐都可以应付自如了,表现音乐的强弱是绰绰有余了。发烧级的录音师还使用24比特,但是和采样精度一样,它不会比20比特有很明显的变化,理论上24比特可以做到144 dB的动态范围,但实际上是很难达到的,因为任何设备都不可避免会产生噪音,至少在现阶段24比特很难达到其预期效果。
声道:
声道(Sound Channel) 是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量.
单声道的声道数为1个声道;双声道的声道数为2个声道;立体声道的声道数默认为2个声道;立体声道(4声道)的声道数为4个声道.
说了这么多的概念,那么一个声音源文件的大小该如何计算呢?(未经过其他的编码)
声音文件的大小:
采样频率*比特*声道数量*声音时长 = 文件的大小(单位: 比特)
比如说: 录制一个1分钟,采样率为44.1khz,16位的立体声的文件大小
44.1*1000*16*2*1*60 = 84672000bit = 10584000B = 10336kB = 10.1MB
PCM/PDM:
PCM: 脉冲编码调制,通用的低级别的数字音频编码.音频信号被采样,然后根据位深在合适的范围内被量化成离散值。比如,对于16位的PCM, 采样值是介于-32768到+32767之间
PDM: 脉冲密度调制
正常人听觉的频率范围大约在20Hz~20kHz之间,根据奈奎斯特采样理论,为了保证声音不失真,采样频率应该在40kHz左右。常用的音频采样频率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等,如果采用更高的采样频率,还可以达到DVD的音质
在录制时,需要的是传感器,android上体现为麦克风.在播放时,需要的是扬声器,android上的体现就是喇叭.
既然有了这些硬件支持,那么软件层面需要做的是什么?就是将这些数字信号记录下来,并且可以传输.
现在就进一步的细化了,声音是模拟信号,通过设置采样率和比特等相关参数,来转换成数字信号,保存到计算中,下次再通过反向的参数设置,将这个数字信号转为模拟信号即可播放.
说到这里,其实最基本的知识才刚刚说完,现在要进一步的说:
刚刚提到了源文件的计算,但是这个只是源文件的大小,一分钟就10M,那么在传输起来,是耗流量的,那么如何处理呢?我们考虑到文件的压缩,其实对于音频也是这样,其实不同的音频文件的格式,我们就可以认为是音频的压缩,无非就是有损和无损压缩,类似于文件的压缩的格式有zip和rar压缩,音频的格式也是有不同的格式,下面根据有损和无损来介绍常见的不同的压缩格式.(完整版参照 https://en.wikipedia.org/wiki/Audio_file_format 中的列表介绍 )
无损压缩音频格式(无损压缩可逆):
WAV/FLAC/APE/ALAC/APE/PCM
有损压缩音频格式(有损压缩不可逆):
AAC/MP3/AMR/WMA/OPUS
混成压缩音频格式:
mpeg
音频压缩中术语介绍:
音频帧: 是一定数目的采样点数的集合
计算音频帧的播放时长: 音频帧的采样点数目/采样率
其他相关内容:
音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真,因而在做处理时,需要做降噪的考虑,失真是使用编码格式时便需要考虑.
最终我们的音频相关处理流程图
模拟信号 —-> 数字信号 —-> 压缩后的音频格式 —-> 解压缩后的音频格式 —-> 数字信号 —-> 模拟信号
从数字信号到压缩后的音频格式,需要经过降噪的处理
数字信号可以理解为PCM
压缩后的音频格式,就是我们提到的那些无损+有损+混成压缩格式
本文截取自:http://blog.csdn.net/ieyudeyinji/article/details/52902541