音视频基础概念:
1.1 声音的物理性质
1.1.1 声音是波
声音是波——声音是一种压力波,乐器的震动引起空气有节奏的震动,使周围的空气产生了疏密变化从而产生了声波
1.1.2 声波的三要素
频率:音阶的高低
振幅:响度
波形:音色
人耳的频率范围:20Hz---20kHz
1.1.3 声音的传播介质
1.1.4 回声
1.1.5共鸣
自然界中 光能、水能、生活中的机械能 电能,声音也能够产生能量,如果两个物体的频率相同,敲击其中一个物体,另一个也能发声,说明声音传播过程也是能量的传播过程
1.2数字音频
采样、量化、编码
采样:在时间轴上对信号进行数字化,一般对音频频率高2倍以上的频率对声音进行采样 也叫做 AD转换 比如 人耳的范围是20hz到20khz 所以采样率一般就是44.1khz 这样能够保证声音到了20kHz也能被数字化从而使声音被数字化后 人听到的声音质量不会被降低 所谓的44.1khz就是1秒采样44100次
量化:是指在幅度轴上对信号进行数字化,比如16比特的二进制信号来表示一个声音的采样,而16比特 所表示的范围是【-31768——32767】,所以有65536哥可能取之,所以最终的模拟信号在幅度上就有了65536层
编码:按照一定的格式记录采样和量化后的数字数据,比如顺序存储或者压缩存储,等等
这里设计了非常多的格式,常说的 音频的裸数据格式就是脉冲编码调制 也叫 PCM数据 描述一段PCM数据一般需要一下几个概念:1、量化格式(有的地方描述为深度) 2、采样率 3、声道数
例如 深度为16比特(幅度范围) 采样率44100 声道数:2 这些信息就描述了CD的特质
比特率:1秒时间内的比特树木,衡量音频数据单位时间内的容量大小 ,如上的CD音质 比特率是多少呢:44100*16*2*1秒=1378.125kbps 那么一分钟内 这类cd的音频数据占据的存储空间是:1378.125*60/8/1024=10.09MB
如果sampleformat(量化格式)更精确 比如用4字节描述一个采样,sampleRate(采样率)更密集 比如48kHz采样率 那么所占用的存储空间就会更大
1.3 音频编码
刚才的音频数据实在是太大了,传输起来好难 所以要压缩 ,压缩分为
无损压缩:解压缩后 可以完全恢复数据
有损压缩:解压缩后,有数据丢失
压缩比:一般小于一,压缩比越小,压缩的越厉害,丢的信息也越多 根据不同的场景 会选择不同的压缩算法 有:PCM WAV AAC MP3 Ogg等
原理:压缩掉冗余信号,冗余信号是不能被感知的,包含人耳听觉范围外的
1、WAV编码
PCM的大致流程已经说过,而WAV编码的一种实现 就是在PCM上加44字节,分别描述PCM的采样率 声道数 数据格式等信息
特点:音质好,大多数软件都支持
适合场景:多媒体开发的中间文件,保存音乐和音效素材
2、MP3编码
压缩比不错,使用LAME编码(MP3编码格式的一种实现)的中高码率MP3文件,听感非常接近WAV文件
特点:音质在128Kbits/s以上表现还不错,压缩比很高 大量软件和硬件都支持 兼容性好
适合场合:高比特率下的对兼容性有要求的音乐欣赏
3、AAC编码
新一代的有损压缩技术,通过一些附加的编码技术衍生出 LC-AAC HE-AAC HE-AAXv2 三种主要的编码格式 LC-AAC是比较传统的AAC 主要在中高码率 大于80kbitt/s HE-AAC主要用在中低码率 小于80Kbit/s 而HE-AAC v2主要应用在低码率场景编码(《48kbit/s)
特点:在小于128kbits/的码率表现优异 并且多用于视频中的音频编码
场合:128kbits/s以下的音频编码,多用于视频中音频轨的编码
4、Ogg编码
非常有潜力的一种编码,在各种码率下都有优秀表现,尤其在中低码的场景下 除了音质好 而且免费 有非常出色的算法 可以用更小的码率达到更好的音质 128Kbit/s的Ogg比192Kbits/s甚至更高的码率Mp3还要出色 但是目前没有媒体服务软件支持,所以还没有实现。
特点:可以用比MP3更小的码率实现更好的音质,高中低的码率都有良好的表现 兼容性不好
场景:语音聊天的音频消息场景
今日总结:裸数据在 采样 量化后形成裸数据 又叫PCM数据 但是pcm太大了,所以需要进行编码 所谓的WAV MP3 AAC Ogg都是压缩的编码形式,其中可能有各种实现方式。
TRTC中音频数据回调出来的就是音频的裸数据,没有经过编码的。