2020/11/05 音视频开发基础第一章到第七页关于音频的编码

最新推荐文章于 2024-10-14 18:02:58 发布

Liyichanger

最新推荐文章于 2024-10-14 18:02:58 发布

阅读量122

点赞数

分类专栏：音视频开发基础文章标签： android ios

本文链接：https://blog.csdn.net/weixin_42274244/article/details/109522443

版权

音视频开发基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

音视频基础概念：

1.1 声音的物理性质

1.1.1 声音是波

声音是波——声音是一种压力波，乐器的震动引起空气有节奏的震动，使周围的空气产生了疏密变化从而产生了声波

1.1.2 声波的三要素

频率：音阶的高低

振幅：响度

波形：音色

人耳的频率范围：20Hz---20kHz

1.1.3 声音的传播介质

1.1.4 回声

1.1.5共鸣

自然界中光能、水能、生活中的机械能电能，声音也能够产生能量，如果两个物体的频率相同，敲击其中一个物体，另一个也能发声，说明声音传播过程也是能量的传播过程

1.2数字音频

采样、量化、编码

采样：在时间轴上对信号进行数字化，一般对音频频率高2倍以上的频率对声音进行采样也叫做 AD转换比如人耳的范围是20hz到20khz 所以采样率一般就是44.1khz 这样能够保证声音到了20kHz也能被数字化从而使声音被数字化后人听到的声音质量不会被降低所谓的44.1khz就是1秒采样44100次

量化：是指在幅度轴上对信号进行数字化，比如16比特的二进制信号来表示一个声音的采样，而16比特所表示的范围是【-31768——32767】,所以有65536哥可能取之，所以最终的模拟信号在幅度上就有了65536层

编码：按照一定的格式记录采样和量化后的数字数据，比如顺序存储或者压缩存储，等等

这里设计了非常多的格式，常说的音频的裸数据格式就是脉冲编码调制也叫 PCM数据描述一段PCM数据一般需要一下几个概念：1、量化格式（有的地方描述为深度） 2、采样率 3、声道数

例如深度为16比特（幅度范围）采样率44100 声道数：2 这些信息就描述了CD的特质

比特率：1秒时间内的比特树木，衡量音频数据单位时间内的容量大小，如上的CD音质比特率是多少呢：44100*16*2*1秒=1378.125kbps 那么一分钟内这类cd的音频数据占据的存储空间是：1378.125*60/8/1024=10.09MB

如果sampleformat（量化格式）更精确比如用4字节描述一个采样，sampleRate（采样率）更密集比如48kHz采样率那么所占用的存储空间就会更大

1.3 音频编码

刚才的音频数据实在是太大了，传输起来好难所以要压缩，压缩分为

无损压缩：解压缩后可以完全恢复数据

有损压缩：解压缩后，有数据丢失

压缩比：一般小于一，压缩比越小，压缩的越厉害，丢的信息也越多根据不同的场景会选择不同的压缩算法有:PCM WAV AAC MP3 Ogg等

原理：压缩掉冗余信号，冗余信号是不能被感知的，包含人耳听觉范围外的

1、WAV编码

PCM的大致流程已经说过，而WAV编码的一种实现就是在PCM上加44字节，分别描述PCM的采样率声道数数据格式等信息

特点：音质好，大多数软件都支持

适合场景：多媒体开发的中间文件，保存音乐和音效素材

2、MP3编码

压缩比不错，使用LAME编码（MP3编码格式的一种实现）的中高码率MP3文件，听感非常接近WAV文件

特点：音质在128Kbits/s以上表现还不错，压缩比很高大量软件和硬件都支持兼容性好

适合场合：高比特率下的对兼容性有要求的音乐欣赏

3、AAC编码

新一代的有损压缩技术，通过一些附加的编码技术衍生出 LC-AAC HE-AAC HE-AAXv2 三种主要的编码格式 LC-AAC是比较传统的AAC 主要在中高码率大于80kbitt/s HE-AAC主要用在中低码率小于80Kbit/s 而HE-AAC v2主要应用在低码率场景编码（《48kbit/s）

特点：在小于128kbits/的码率表现优异并且多用于视频中的音频编码

场合：128kbits/s以下的音频编码，多用于视频中音频轨的编码

4、Ogg编码

非常有潜力的一种编码，在各种码率下都有优秀表现，尤其在中低码的场景下除了音质好而且免费有非常出色的算法可以用更小的码率达到更好的音质 128Kbit/s的Ogg比192Kbits/s甚至更高的码率Mp3还要出色但是目前没有媒体服务软件支持，所以还没有实现。

特点：可以用比MP3更小的码率实现更好的音质，高中低的码率都有良好的表现兼容性不好

场景：语音聊天的音频消息场景

今日总结：裸数据在采样量化后形成裸数据又叫PCM数据但是pcm太大了，所以需要进行编码所谓的WAV MP3 AAC Ogg都是压缩的编码形式，其中可能有各种实现方式。

TRTC中音频数据回调出来的就是音频的裸数据，没有经过编码的。