发表的期刊没找到。
利用扩散生成模型的预测能力,提出一种极端视频压缩的新方法,以实现在低比特率下视觉上令人满意的重构。
模型取若干压缩帧,并生成后续帧。当重建质量下降到期望水平以下时,对新帧进行编码,重新开始预测。
Pipeline
前几个帧由编码器进行压缩,而后面的帧则在解码器处使用预训练的生成模型进行生成。
当生成质量下降到期望阈值以下时,对新帧进行编码,以维持整体效果。
Methods
预处理
视频表示为帧序列A1:T∈RT×C×H×W。假设At随时间演化服从联合分布p(A1:T)。
初始的k帧A1:k和中间帧的子集使用图像压缩的SOTA方法(ELIC)进行编码。
基于diffusion的帧生成
在解码器处完全依赖于基于扩散的神经网络的生成能力。
设S⊂[T]是逐个压缩的帧的子集,则其余的帧,如Ai∈A[T]\S,就用前的k+1个帧Ai-k-1:i-1当作条件,用参数θ预训练的扩散模型生成。
- 前向扩散过程(FDP):
- 将图像逐渐转换为噪声,每一步都向当前数据添加与预定方差βt相关的高斯噪声。
- 可以视为将数据分布pdata转化为一个高斯噪声分布N(0,I)的逐渐转换。
- 反向扩散过程(RDP):
- 一个马尔可夫链,从纯噪声图像AT开始,逐步去噪并恢复原始图像A0。
- 每一步都用学习到的高斯转移核pθ(At-1|At, A0)来估计前一步的图像At-1。
给的前k+1帧:Ai:i+k,可以学习到条件分布p(Ai+k+1|Ai:i+k),用损失函数Lpred(θ)优化
顺序编码过程
关键机制是编码器的一个决策算法,排除了大量帧,且不会损害重建视频帧的质量。
帧数列表S⊂[T],指示哪些帧被编码,哪些帧将在解码器端使用模型生成,初始的前k帧肯定都在列表里。
在t>k时,生成模型输入已编码的帧At−k:t,根据学习到的条件分布pθ预测接下来的j帧。
将生成帧的预测结果A~t+1:t+j与原始数据进行比较,使用一个给定的阈值ρ>0和相似度度量D(·,·)来评估。
1.满足阈值要求,则添加t+1到[T]\S,表示用模型生成。
2.则意味着预测质量不足,在S中添加[t+1:t+k],意味着At+1:t+k用编解码器编码。
缺点:
在当前的实现中,生成过程必须在编码器和解码器中同时进行。编码器使用生成过程来确定生成视频帧的质量,然后用于决定将哪些视频帧将被压缩。这增加了所提方案的编码复杂度。
Result
DCVC-DC在高分辨率数据集上表现良好,但在低分辨率图像上的压缩能力有限,最小bpp0.06。
H.264和H.265分别只能达到0.04和0.06的bpp。
而新方法实现了更低的bpp(0.02),且在FVD方面表现得良好。
LPIPS:学习的感知图像块相似度。
bpp0.06的结果。
说实话感觉不如DCVC-DC,取巧的一篇论文。