音频学习

最新推荐文章于 2022-06-13 21:11:15 发布

小白加菜

最新推荐文章于 2022-06-13 21:11:15 发布

阅读量393

点赞数

文章标签：音频编码解码

本文链接：https://blog.csdn.net/fffffffdd/article/details/112907775

版权

音频专栏收录该内容

1 篇文章 0 订阅

订阅专栏

音频处理相关知识
音频：指人耳可以听到的声音频率在20HZ~20kHz之间的声波（声音是一种纵波,频率就是声波每秒震动的次数），称为音频。
音质定义以语音带宽来区分，采样率越高，带宽越大，则保真度越高，音质越好。窄带（8khz采样），宽带（16khz采样），CD音质（44.1khz采样）。
采样频率：即取样频率, 指每秒钟取得声音样本的次数。采样频率越高,声音的质量也就越好,声音的还原也就越真实，但同时它占的资源比较多。由于人耳的分辨率很有限,太高的频率并不能分辨出来。原始PCM数据每秒采样次数
比特率：编码压缩后的码率，每秒音频的大小。（所以在编码效果好的情况下也会有高采样率对应相对低的比特率
PCM(Pulse Code Modulation)，脉冲编码调制。人耳听到的是模拟信号，PCM是把声音从模拟信号转化为数字信号的技术。原理是用一个固定的频率对模拟信号进行采样，采样后的信号在波形上看就像一串连续的幅值不一的脉冲(脉搏似的短暂起伏的电冲击)，把这些脉冲的幅值按一定精度进行量化，这些量化后的数值被连续的输出、传输、处理或记录到存储介质中，所有这些组成了数字音频的产生过程(抽样、量化、编码三个过程)。
采样位数：即采样值或取样值（就是将采样样本的幅度量化），是用来衡量声音波动变化的一个参数，它的数值越大，分辨率也越高，所发出的声音的能力也越强。
每个采样数据记录的是振幅，采样精度取决于采样位数的大小：
• 1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级;
• 2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;
• 4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了.

通道数：即声音的通道的数目。常有单声道和立体声之分，单声道的声音只能使用一个喇叭发声（有的也处理成两个喇叭输出同一个声道的声音），立体声可以使两个喇叭都发声（一般左右声道有分工），更能感受到空间效果，当然还有更多的通道数。
帧：帧记录了一个声音单元，其长度为样本长度(采样位数)和通道数的乘积。
音频重采样：是将音频进行重新采样得到新的采样率的音频。
重采样的原因：音频系统中可能存在多个音轨，而每个音轨的原始采样率可能是不一致的。比如在播放音乐的过程中，来了一个提示音，就需要把音乐和提示音都混合到codec输出，音乐的原始采样率和提示音的原始采样率可能是不一致的。问题来了，如果codec的采样率设置为音乐的原始采样率的话，那么提示音就会失真。因此最简单见效的解决方法是：codec的采样率固定一个值（44.1KHz/48KHz），所有音轨都重采样到这个采样率，然后才送到codec，保证所有音轨听起来都不失真

音频3A处理：AEC、NS、AGC
AEC回声消除：当一个设备在播放声音经过空间中的多次反射会被麦克风再次捕捉并采集到系统当中，这时音频的输入既有空间反射的回声也有本端说话声，如果缺少此模块就意味着通话中说话人一直可以听到自己的声音回来，这是非常差的一种体验，这当然是需要我们避免的。这里AEC的作用就是通过播放的参考信号跟踪出回声并从采集信号中把回声消除掉，随后再经过降噪处理去除噪声。而其中的AECM是在NS模块之后通过获取clean与noise数据进行分析，AEC则是NS模块之前直接获取noise数据进行分析。

音频数据完成AEC与NS的处理后会进行AGC（语音自动增益可以自动调麦克风的收音量，使与会者收到一定的音量水平，不会因发言者与麦克风的距离改变时，声音有忽大忽小声的缺点。）处理，其包括AAGC（模拟域的自动增益控制）与DAGC（数字域的自动增益控制）。其中AAGC的主要作用是通过系统的采集音量设置接口调整输入信号（大多用于PC端，移动端一般没有输入音量的系统接口），如借助Windows上的的API调整采集音量等参数。AAGC可为输入的音频数据带来明显的质量优化，如提高信噪比，避免输入信号溢出等。但由于我们服务的跨平台要求，我们需要构建一个面向多平台设备的框架，在不同的输入平台和设备都会有不同的输入音量，DAGC可以根据对输入信号的跟踪，尽量的调整信号到达期望大小(幅值或能量)，从而避免不同设备采集带来的音量差异过大。完成AGC处理的音频数据，即可进入Audio Encode进行编码操作。
即时通讯中的回声消除：需要进行双方，或是多方的实时语音交流，在要求较高的场合，通常都是采用外置音箱放音，这样必然会产生回音，即一方说话后，通过对方的音箱放音，然后又被对方的Mic采集到回传给自己（如下图所示）。如果不对回音进行处理，将会影响通话质量和用户体验，更严重的还会形成震荡，产生啸叫。

周期：音频设备一次处理所需要的帧数，对于音频设备的数据访问以及音频数据的存储，都是以此为单位。

交错模式：数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录帧1的左声道样本和右声道样本，再开始帧2的记录…

非交错模式：首先记录的是一个周期内所有帧的左声道样本，再记录所有右声道样本。

比特率：每秒的传输速率(位速, 也叫比特率)。如705.6kbps 或 705600bps, 其中的 b 是 bit, ps 是每秒的意思，表示每秒705600bit的容量。

音频编解码器 是指能编码或解码音频数字数据流的设备或计算机程序。
AD是模拟量转换数字量

ADC是模拟量转数字量的转换器
ADC是模拟转数字信号编码芯片，DAC是数字转模拟信号解码芯片，前者一般用于录音而后者一般用于解码音频。
中间数字信号处理过程交由DSP进行操作。模拟信号从ADC输入，经过编码变成数字信号，交由DSP进行运算和处理，
最终交给DAC将数字信号重新解码为模拟信号后输出。
在硬件层面，音频编解码器指一个能编码模拟音频到数字音频和解码数字音频到模拟音频的独立设备。
换种说法，它包含运行在同样时钟的模数转换器（ADC）和数模转换器（DAC）。这在声卡中被使用以支持音频输入和输出。
在硬件层面，人是这个接收者，人可以直接理解的是模拟信号（电压变化，传到耳机被表现为相应元器件的振动，进而带动空气振动产生声波），
人无法直接理解的是0101的数据流，即数字信号。编解码器做的就是在他们之间的双向翻译。当然，我们所处的模拟世界是无限精度的，
但数字信号却因为比特数的限制有一个精度的上限，所以转换中肯定有一定的损失。
更高的采样率可以将这个损失缩小到不可察觉，对此可以类比微积分中的积分，用的“长方形”越窄，我们就能越能逼近原始函数。
在软件层面，音频编解码器是一个执行算法的计算机程序，能压缩与解压缩数字音频数据到音频文件或流媒体音频编码格式。
该算法的目的是保证质量的前提下使用最少的比特表示高保真音频信号。这可以有效地减少存储空间和传输已存储音频文件所需的带宽。
大多数编解码器是实现为一个具有接口的库供一个或多个媒体播放器使用。
编码和解码
编码就是将「接收者」「可以直接理解的信息」转换为「无法直接理解的信息」，
以此获得压缩体积、加密内容、便于修改、避免传输过程中的失真等等一系列收益这样的收益。
解码则是用对应的方式，去解读编码之后的信息，将其还原为接收者可以直接理解的信息。

TLV320aic32音频编解码器
音频编码器/解码器（CODEC）装置的主要部件是模拟到数字转换器（ADC），数字模拟转换器（DAC），和一个数据接口总线之间的转换的数据传输编解码与单片机（MCU）或DSP。随着系统复杂性的增加和尺寸减小便携式应用，功能集成成为设计师的一个有吸引力的选择。的aic32x4集成处理能力，可以减少外部DSP的开销或简单地作为一个与单片机一起的信号处理器。

TLV320aic32编程通过写寄存器，可以通过I2C或SPI™™通信协议。

音频属性详解(涉及采样率、通道数、位数、比特率、帧等)

TLV320aic32音频编解码器

小白加菜

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
音频学习

音频处理相关知识音频：指人耳可以听到的声音频率在20HZ~20kHz之间的声波（声音是一种横波,频率就是声波每秒震动的次数），称为音频。音质定义以语音带宽来区分，采样率越高，带宽越大，则保真度越高，音质越好。窄带（8khz采样），宽带（16khz采样），CD音质（44.1khz采样）。采样频率：即取样频率, 指每秒钟取得声音样本的次数。采样频率越高,声音的质量也就越好,声音的还原也就越真实，但同时它占的资源比较多。由于人耳的分辨率很有限,太高的频率并不能分辨出来。原始PCM数据每秒采样次数比特率：编
复制链接

扫一扫