首先来理解几个概念:
time base : 时间基,也即是时间单位,举个栗子, ctx->time_base = {1, 1000}, 即,把一秒分为 1000个单位,每个单位 1/1000 秒。
fps : 帧每秒,即 每秒显示多少帧,举个栗子,25fps,每秒显示25帧,每帧持续显示 1/25 = 0.04 秒 = 40 毫秒。
sample_rate : 这个是对于 音频来讲的,即采样率,常见的比如 44.1 KHz, 即 每秒采样 44100 次。
我们知道,对于视频,我们可以根据 fps得到 每一帧的pts,即:
根据时间基,一秒钟 1000 个单位,这1000个单位分给 25 帧去使用,所以每个帧占用了 1000/25的时间,
所以,如果第一帧的pts 应该是 1000/25 * 1/1000 = 40 毫秒,即 占用的时间单位个数 * 每个时间单位的时间
同理,第二帧就是 : 40 + (1000/25 * 1/1000) = 80 毫秒,第N帧就是 :N * 40 毫秒 。
而对于音频,我们并不知道每秒会有多少给音频帧播放,而是知道每秒采样多少次,那要怎么计算呢?
我们可以通过(ffmpeg里面提供了一个变量:AVFrame:nb_samples ,这个表示每给frame里面有多少个采样个数) 。
则,每秒的帧数 = 每秒采样数/一帧的采样数 。
所以 音频的 ”fps“ = sample_rate/nb_samples。
所以,音频的 pts 应该这样算:
举个栗子, 时间基为 {1, 8000} 即 每个时间单位是 1/ 8000 秒 ,采样率为 44.1Khz, 则:
则根据上面的原理, 8000 份时间 分给 fps 使用,则 每个帧占用了 8000/ fps 的时间。
第一帧的pts = (8000 / fps) = (8000 / (44100/nb_samples)) 约等于 2 * nb_samples
第N帧 就是 N * 2 * nb_samples