一起学（抖音快手）音视频，深入浅出安卓开发

最新推荐文章于 2025-05-20 22:23:34 发布

Android失眠夜

最新推荐文章于 2025-05-20 22:23:34 发布

阅读量1k

点赞数 21

分类专栏：程序员学习文章标签：音视频 android

本文链接：https://blog.csdn.net/m0_61418075/article/details/136861718

版权

程序员学习专栏收录该内容

8 篇文章

订阅专栏

几百位歌手的时差、现场收录的和网络技术条件各不相同，所以并没有在线实时协作进行直播的可能，甚至两个人一弹一唱都不可能，因为0.17秒的延时足以抵消全世界顶级音乐人的现场功力。

这段话中的延时，为什么”足以抵消全世界顶级音乐人的现场功力。我们来举个例子说明一下。以歌曲《稻香》为例，它的钢琴曲谱是4/4拍，标准乐曲速度为80拍/分钟。副歌部分大约每个音乐小节唱8到12个字，且主要以八分音符和十六分音符组成，基本上每个音符对应歌词中的一个字。粗略计算的话，大约200 - 300ms左右唱出一个字。

不考虑伴奏的情况下，假设两个合唱者A和B之间的端到端延时为100ms。从声音传输流程上来说：

A先唱，B听到A的歌声。此时产生100ms延时；
B在听到A的歌声后开始加入合唱，歌声传到A端。此时又产生100ms延时；

那么 A听到B的歌声永远延时200ms。根据之前唱每个字所用时间的计算，听感上会至少慢半个字，是错位的。

如果要考虑伴奏的传输，以及伴奏与歌声的混音，情况将更加复杂。一般端到端延时只要低于150ms，听者是感知不到的。所以唱《稻香》这种速度的歌，延时低于80ms可以合唱。如果唱更快速、歌词更密集的歌，延时要求更低，否则合唱时两人永远也对不准拍子，演唱者的体验也非常糟糕。中国与美国相距1万多公里，光速为30万km/s，光纤传输会有一定损耗，可以按照20万km/s计算，中美之间按15000km物理距离粗略计算，单向延时在75ms左右，无法克服的双向物理延时就有大约150ms。而且，One World Together中的4人合唱场景，涉及到多方协作，情况更加复杂，所以以目前的技术水平，跨超远距离的多方合唱是很难做到的。在One World Together中，我们看到的基本都是录播。不过，不论是录播还是真的实时合唱，给观众带来最好的体验才是最重要的。

在很多社交应用中，都有合唱这一功能，这是如何做到的呢？

合唱中的延时

我们首先解读一下延时是如何产生的。这个场景下的延时包括两部分：设备端的延时和端到端的延时，我们需要针对不同阶段的延时，来分析如何降低延时。

音频在采集端、播放端的延时

图：音视频传输流程流程

在这里，音频=歌声，或音频=歌声+伴奏。

设备端上的延时包括采集端的采集、前处理、编码，播放端的接收、解码、后处理过程产生的延时，以及两端在编码后和解码前产生端网络延时。
端上的延时主要与硬件性能、采用的编解码算法、音视频数据量相关，设备端上的延时可达到 30~200ms，甚至更高。

音频在设备端上的延时还可以细分为以下几点：

音频采集延时：采集后的音频首先会经过声卡进行信号转换，声卡本身会产生延时；
音频播放延时：这部分延时与播放端设备性能相关；
音频处理延时：前后处理，包括 AEC，ANS，AGC 等前后处理算法都会带来算法延时，通常这里的延时就是滤波器阶数；
端网络延时：这部分延时主要出现在解码之前的 jitter buffer 内。

另外，合唱场景通常会为用户提供各种KTV音效，即人声在编码传输前会增加一步前处理，这还会加大音频在端上的延时。

若想降低音频在端上的延时，就需要针对不同机型进行编解码算法的优化，以降低音频采集、编解码、音频处理带来的延时。端上延时还与设备性能、系统紧密相关，如果歌手中有一方的设备性能较差，也会影响合唱效果。

端到服务器之间的延时

除了端上的延时，音频数据在端到服务器、服务器到服务器之间的传输过程也会产生较大延时，这也是阻碍“实时合唱”功能落地的重要因素。

影响采集端与服务器、服务器与播放端的延时的有以下几个因素：客户端同服务间的物理距离、客户端和服务器的网络运营商、终端网络的网速、负载和网络类型等。如果服务器就近部署在服务区域、服务器与客户端的网络运营商一致时，影响上下行网络延时的主要因素就是终端网络的负载和网络类型。一般来说，无线网络环境下的传输延时波动较大，传输延时通常在 10~100ms不定。而有线宽带网络下，同城的传输延时能较稳定的低至 5ms~10ms。但是在国内有很多中小运营商，以及一些交叉的网络环境、跨国传输，那么延时会更高。

服务器之间的延时

在此我们要要考虑两种情况，第一种，两端都连接着同一个边缘节点，那么作为最优路径，数据直接通过边缘节点进行转发至播放端；第二种，采集端与播放端并不在同一个边缘节点覆盖范围内，那么数据会经由“靠近”采集端的边缘节点传输至主干网络，然后再发送至“靠近”播放端的边缘节点，但这时服务器之间的传输、排队还会产生延时。

在实时合唱的场景中，要解决网络不佳、网络抖动，需要在采集设备端、服务器、播放端增设缓冲策略。一旦触发缓冲策略就会产生延时。如果卡顿情况多，延时会慢慢积累。要解决卡顿、积累延时，就需要优化整个网络状况。