HyperDiffusion阅读

image.png
发表的期刊没找到。
利用扩散生成模型的预测能力,提出一种极端视频压缩的新方法,以实现在低比特率下视觉上令人满意的重构。
模型取若干压缩帧,并生成后续帧。当重建质量下降到期望水平以下时,对新帧进行编码,重新开始预测。

Pipeline

image.png
前几个帧由编码器进行压缩,而后面的帧则在解码器处使用预训练的生成模型进行生成。
当生成质量下降到期望阈值以下时,对新帧进行编码,以维持整体效果。

Methods

预处理

视频表示为帧序列A1:T∈RT×C×H×W。假设At随时间演化服从联合分布p(A1:T)。
初始的k帧A1:k和中间帧的子集使用图像压缩的SOTA方法(ELIC)进行编码。

基于diffusion的帧生成

在解码器处完全依赖于基于扩散的神经网络的生成能力。
设S⊂[T]是逐个压缩的帧的子集,则其余的帧,如Ai∈A[T]\S,就用前的k+1个帧Ai-k-1:i-1当作条件,用参数θ预训练的扩散模型生成。

  1. 前向扩散过程(FDP)
    • 将图像逐渐转换为噪声,每一步都向当前数据添加与预定方差βt相关的高斯噪声。
    • 可以视为将数据分布pdata转化为一个高斯噪声分布N(0,I)的逐渐转换。
    • image.png
  2. 反向扩散过程(RDP)
    • 一个马尔可夫链,从纯噪声图像AT开始,逐步去噪并恢复原始图像A0。
    • 每一步都用学习到的高斯转移核pθ(At-1|At, A0)来估计前一步的图像At-1。
    • image.png

给的前k+1帧:Ai:i+k,可以学习到条件分布p(Ai+k+1|Ai:i+k),用损失函数Lpred(θ)优化image.png

顺序编码过程

关键机制是编码器的一个决策算法,排除了大量帧,且不会损害重建视频帧的质量。
帧数列表S⊂[T],指示哪些帧被编码,哪些帧将在解码器端使用模型生成,初始的前k帧肯定都在列表里。
在t>k时,生成模型输入已编码的帧At−k:t,根据学习到的条件分布pθ预测接下来的j帧。
image.png
将生成帧的预测结果A~t+1:t+j与原始数据进行比较,使用一个给定的阈值ρ>0和相似度度量D(·,·)来评估。
1.image.png满足阈值要求,则添加t+1到[T]\S,表示用模型生成。
2.image.png则意味着预测质量不足,在S中添加[t+1:t+k],意味着At+1:t+k用编解码器编码。
image.png

缺点:

在当前的实现中,生成过程必须在编码器和解码器中同时进行。编码器使用生成过程来确定生成视频帧的质量,然后用于决定将哪些视频帧将被压缩。这增加了所提方案的编码复杂度。

Result

DCVC-DC在高分辨率数据集上表现良好,但在低分辨率图像上的压缩能力有限,最小bpp0.06。
H.264和H.265分别只能达到0.04和0.06的bpp。
而新方法实现了更低的bpp(0.02),且在FVD方面表现得良好。
image.png
LPIPS:学习的感知图像块相似度。
image.png
bpp0.06的结果。
说实话感觉不如DCVC-DC,取巧的一篇论文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值