实时音频编解码之一发声和听觉机理

shichaog

已于 2022-05-13 21:17:48 修改

阅读量1.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Opus编码器原理和工程实现详解文章标签：人工智能音频编码 opus编码器丢包补偿参数编码器

于 2022-05-13 21:15:44 首次发布

本文链接：https://blog.csdn.net/shichaog/article/details/124759659

Opus编码器原理和工程实现详解专栏收录该内容

20 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了实时音频编解码在IP网络中的挑战，重点关注了Opus编码器，以及人类的发声和听觉机理。通过对发声机理的分析，阐述了语音的短时平稳性和共振峰结构，听觉机理则涉及到基底膜的振动和掩蔽效应。文章介绍了编码器的分类，包括波形、参数、混合编码以及基于深度学习的方法。

本文谢绝任何形式转载，谢谢。

新冠大流行使得基于IP网络的交互式实时音视频技术在更多的领域得到应用，然而由于基于包交换技术的IP网络并不是为交互式实时音视频场景而推出的技术，通过IP网络传输的音视频可能受到带宽限制，也可能存在丢包、乱序以及抖动等多种问题，ITU-T G.114中对于端到端通信场景（嘴到耳）延迟在150毫秒及以下并不容易被人察觉，然而当端到端延迟超过400毫秒时通话质量将受影响，受限于网络带宽、延迟、丢包以及抖动问题，相应的有实时音频编码器、抖动缓冲区、丢包补偿等技术从音频算法层面减弱上述问题的影响，这些技术通常和编码器都有关系，音频编码又称音频压缩是指在合理的音频质量前提下用尽量少的比特表示数字音频信号，其减少了网络带宽的占用，因而适合长距离传输场景，本书会着重介绍交互式实时场景中较为经典的Opus编码器，当音频信号以VoIP包在IP网络上传输时，VoIP语音数据包会经过不同的路由器传输，这会导致有些VoIP包相较于其它VoIP包到达接收端比较晚、或者损坏甚至根本没有成功传输到接收端，没有成功传输到接收端的VoIP称为丢包，丢包的一种可能是网络带宽（通常和资费有关）满了导致路由器根本无法传输更多数据包，另一种可能是网络拥塞导致了很大的延迟，对于VoIP实时通信场景而言，太大的延迟到达的包会被认为是丢包，VoIP场景的实时通信底层通常使用基于UDP的传输技术，并不像TCP/IP协议一样提供可靠的传输，因而在发送端重传有问题的包并不能很好的解决丢包问题，通常接收端要实现丢包隐藏技术以抗丢包，交互式实时音频应用场景语音处理协议栈如图0-1所示，语音增强和回声消除所述技术可见笔者《实时语音处理实践指南》一书，本书主要浅析非理想网络情况下的VoIP音频编解码和抖动缓冲区技术。