音视频同步原理

LIEYz

已于 2022-05-24 10:16:37 修改

阅读量3.2k

点赞数 1

分类专栏：音视频文章标签：音视频

于 2019-09-12 18:08:27 首次发布

本文链接：https://blog.csdn.net/qq_18998145/article/details/100777162

版权

音视频专栏收录该内容

35 篇文章 11 订阅

订阅专栏

音视频同步的目的是为了使播放的声音和显示的画面保持一致。视频按帧播放，图像显示设备每次显示一帧画面，视频播放速度由帧率确定，帧率指示每秒显示多少帧；音频按采样点播放，声音播放设备每次播放一个采样点，声音播放速度由采样率确定，采样率指示每秒播放多少个采样点。如果仅仅是视频按帧率播放，音频按采样率播放，二者没有同步机制，即使最初音视频是基本同步的，随着时间的流逝，音视频会逐渐失去同步，并且不同步的现象会越来越严重。这是因为：一、播放时间难以精确控制，二、异常及误差会随时间累积。所以，必须要采用一定的同步策略，不断对音视频的时间差作校正，使图像显示与声音播放总体保持一致。

一个AAC音频frame每个声道包含1024个采样点，则一个frame的播放时长(duration)为：(1024/44100)×1000ms = 23.22ms；一个H264视频frame播放时长(duration)为：1000ms/25 = 40ms。声卡虽然是以音频采样点为播放单位，但通常我们每次往声卡缓冲区送一个音频frame，每送一个音频frame更新一下音频的播放时刻，即每隔一个音频frame时长更新一下音频时钟，实际上ffplay就是这么做的。我们暂且把一个音频时钟更新点记作其播放点，理想情况下，音视频完全同步，音视频播放过程如下图所示：

要实现音视频同步，需要选择一个参考时钟，参考时钟上的时间是线性递增的，编码音视频流时依据参考时钟上的时间给每帧数据打上时间戳。在播放时，读取数据帧上的时间戳，同时参考当前参考时钟上的时间来安排播放。这里的说的时间戳就是pts。实践中，我们可以选择：同步视频到音频、同步音频到视频、同步音频和视频到外部时钟。

假如视频帧率frame_rate=1/30，AVStream时间基time_base=1/90000，则每帧对应AVStream时间基的刻度为：

frame_rate / time_base=3000

假如音频每帧frame_size包含1024个采样点，采样率sample_rate=44100，AVStream时间基time_base=1/44100，则每帧对应AVStream时间基的刻度为：

frame_size / sample_rate / time_base = 1024

即如果不进行音视频同步，每个视频帧的PTS固定增加3000，每个音频帧的PTS固定增加1024。

下面简单介绍音频同步到视频：

1.保存视频帧时，每帧视频的PTS固定增加3000。

2.保存音频帧时，用当前已保存的视频帧和音频帧最大PTS乘以相应的AVStream时间基得到当前的视频时间和音频时间。

PTS*time_base

3.如果当前的视频时间快于音频时间，则适当增大当前保存的音频帧的PTS，否则适当减小。

考虑到人对声音的敏感度要强于视频，频繁调节音频会带来较差的观感体验，且音频的播放时钟为线性增长，所以一般会以音频时钟为参考时钟，视频同步到音频上。
在实际使用基于这三种策略做一些优化调整，例如：

调整策略可以尽量采用渐进的方式，因为音视频同步是一个动态调节的过程，一次调整让音视频PTS完全一致，没有必要，且可能导致播放异常较为明显。
调整策略仅仅对早到的或晚到的数据块进行延迟或加快处理，有时候是不够的。如果想要更加主动并且有效地调节播放性能，需要引入一个反馈机制，也就是要将当前数据流速度太快或太慢的状态反馈给“源”，让源去放慢或加快数据流的速度。