音频基础概念

一 音频知识

现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。PCM技术就是要把声音从模拟转换成数字信号的一种技术,他的原理简单地说就是利用一个固定的频率对模拟信号进行采样,采样后的信号在波形上看就像一串连续的幅值不一的脉冲,把这些脉冲的幅值按一定的精度进行量化,量化之后就行进行编码。自然界的音频都是模拟信号,要在计算机中模拟出来,必须转成数字信号,这就是模数转换。

二 PCM介绍

PCM(Pulse Code Modulation),即脉冲编码调制技术。由于我们人耳听到的声音均为模拟信号,那么我们如何将听到的信息存储起来呢?这就涉及到了PCM技术。

PCM技术就是把声音从模拟信号转化为数字信号的技术,即对声音进行采样、量化的过程,经过PCM处理后的数据,是最原始的音频数据,即未对音频数据进行任何的编码和压缩处理。简单理解就是以一个固定的频率对模拟信号进行采样,并将采样的信号按照一定精度进行量化,最终量化后的值被输出,记录到存储介质中。

衡量量化的指标就是采样位数(深度):即指描述数字信号所使用的的位数,位数越多,分级就越细,量化误差就越小。

采样频率:
采样频率是设备一秒钟内对模拟信号的采样次数,采样频率越高,声音的质量也就越好,声音的还原也就越真实,但同时它占的资源比较多。

5kHz的采样率仅能达到人们讲话的声音质量。
11kHz的采样率是播放小段声音的最低标准,是CD音质的四分之一。
22kHz采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率。
44kHz的采样率是标准的CD音质,可以达到很好的听觉效果。
48KHz:miniDV、数字电视、DVD、电影和专业音频。

音频文件的生成过程是将声音信息 PCM处理(采样、量化) 和 编码产生的数字信号的过程,我们人耳所能听到的声音频率范围为(20Hz~20KHz),因此音频文件格式的最大带宽是20KHZ。

根据奈奎斯特的理论,音频文件的采样率一般在40~50KHZ之间。

奈奎斯特采样定律,又称香农采样定律,即:为了不失真地恢复模拟信号,采样频率应该大于等于模拟信号频谱中最高频率的2倍。

采样位数:
采样位数比如8bit(现在少见)、16bit(常用)和24bit,指的是描述数字信号所使用的位数,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。8bits为低品质,16bits为高品质

量化:
通过采样时测的的模拟电压值,要进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值。

声道数:
又称为通道数,由于音频的采集和播放是可以叠加的,因此,可以同时从多个音频源采集声音,并分别输出到不同的扬声器,故声道数一般表示声音录制时的音源数量或回放时相应的扬声器数量。
常见的单声道和立体声(双声道)
单声道:采样数据为8位的短整数;
双声道:采样数据为16位的整数,高八位(左声道)和低八位(右声道)分别代表两个声道

音频数据大小计算:
[时长]s * [采样率]Hz * [采样位数]bit * [声道数] / 8 = [文件大小]byte。
某音频信号是采样率为8kHz、声道数、位宽为16bit,时长为1s,则音频数据的大小为:1 * 8000 * 16 *2 = 256000 bit / 8 = 32000 byte / 1024 = 31.25 KB;

音频帧:
音频跟视频很不一样,视频每一帧就是一张图像,音频数据是流式的,不同的编码格式各自不同的编码标准,拿PCM和MP3做一个对比。PCM因为没有压缩,根据采样率位宽等数据可以得到每秒的音频数据,并
不需要帧的概念,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。而 MP3则是因为压缩后信息比较多,则有了类似H264的帧概念,每一个帧都有一个帧头

录播:
播放音乐时,应用程序从存储介质中读取音频数据(MP3、WMA、AAC…),经过解码后,最终送到音频驱动程序中的就是PCM数据。反过来,在录音时,音频驱动不停地把采样所得的PCM数据送回给应用程序,由应用程序完成压缩、存储等任务。所以,音频驱动的两大核心任务就是:
playback:如何把用户空间的应用程序发过来的PCM数据,转化为人耳可以辨别的模拟音频;
capture:把mic拾取到得模拟信号,经过采样、量化,转换为PCM信号送回给用户空间的应用程序

三 编码

一个完整的音频,经过采样和量化后的信号,需要将它转化为数字编码脉冲,这一过程称为编码。编码简单来说,就是按一定格式记录采样和量化后的数字数据。而需要注意的是,PCM技术仅仅包含采样和量化,并不包含编码部分。

PCM数据是最原始的音频数据,完全无损,所以PCM数据虽然音质优秀但体积庞大,为了解决这个问题先后诞生了一系列的音频格式,这些音频格式运用不同的方法对音频数据进行压缩,其中有无损压缩和有损压缩两种。

无损压缩:将数据压缩之后,通过解码还能还原成与原始数据一模一样的数据为无损压缩。
ALAC、APE、FLAC

有损压缩:消除冗余信息,如人耳能听到的声音为20Hz - 20000Hz 以内,所以可以将此范围外的声音去除掉。
MP3、AAC、OGG、WMA

码率:(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量,代表了压缩质量。
比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等,越高代表着声音音质越好

码率 = 采样率 * 采样位数 * 声道数

如果是CD音质,采样率44.1KHz,采样位数16bit,立体声(双声道), 码率 = 44.1 * 1000 * 16 * 2 = 1411200bps = 176400Bps,那么录制一分钟的音乐, 大概176400 * 1 * 60 / 1024 / 1024 =10.09MB。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Linux老A

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值