HyperDiffusion阅读

是大杨杨啊

已于 2024-08-14 09:52:08 修改

阅读量815

点赞数 16

文章标签：人工智能计算机视觉机器学习

于 2024-07-22 17:24:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_49130177/article/details/140615204

版权

发表的期刊没找到。
利用扩散生成模型的预测能力，提出一种极端视频压缩的新方法，以实现在低比特率下视觉上令人满意的重构。
模型取若干压缩帧，并生成后续帧。当重建质量下降到期望水平以下时，对新帧进行编码，重新开始预测。

Pipeline

前几个帧由编码器进行压缩，而后面的帧则在解码器处使用预训练的生成模型进行生成。
当生成质量下降到期望阈值以下时，对新帧进行编码，以维持整体效果。

Methods

预处理

视频表示为帧序列A1：T∈RT×C×H×W。假设At随时间演化服从联合分布p(A1：T)。
初始的k帧A1：k和中间帧的子集使用图像压缩的SOTA方法(ELIC)进行编码。

基于diffusion的帧生成

在解码器处完全依赖于基于扩散的神经网络的生成能力。
设S⊂[T]是逐个压缩的帧的子集，则其余的帧，如Ai∈A[T]\S，就用前的k+1个帧Ai-k-1：i-1当作条件，用参数θ预训练的扩散模型生成。

前向扩散过程（FDP）：
- 将图像逐渐转换为噪声，每一步都向当前数据添加与预定方差βt相关的高斯噪声。
- 可以视为将数据分布pdata转化为一个高斯噪声分布N(0,I)的逐渐转换。
反向扩散过程（RDP）：
- 一个马尔可夫链，从纯噪声图像AT开始，逐步去噪并恢复原始图像A0。
- 每一步都用学习到的高斯转移核pθ(At-1|At, A0)来估计前一步的图像At-1。

给的前k+1帧：Ai:i+k，可以学习到条件分布p(Ai+k+1|Ai:i+k)，用损失函数Lpred(θ)优化

顺序编码过程

关键机制是编码器的一个决策算法，排除了大量帧，且不会损害重建视频帧的质量。
帧数列表S⊂[T]，指示哪些帧被编码，哪些帧将在解码器端使用模型生成，初始的前k帧肯定都在列表里。
在t>k时，生成模型输入已编码的帧At−k:t，根据学习到的条件分布pθ预测接下来的j帧。

将生成帧的预测结果A~t+1:t+j与原始数据进行比较，使用一个给定的阈值ρ>0和相似度度量D(·,·)来评估。
1.满足阈值要求，则添加t+1到[T]\S，表示用模型生成。
2.则意味着预测质量不足，在S中添加[t+1:t+k]，意味着At+1：t+k用编解码器编码。

缺点：

在当前的实现中，生成过程必须在编码器和解码器中同时进行。编码器使用生成过程来确定生成视频帧的质量，然后用于决定将哪些视频帧将被压缩。这增加了所提方案的编码复杂度。

Result

DCVC-DC在高分辨率数据集上表现良好，但在低分辨率图像上的压缩能力有限，最小bpp0.06。
H.264和H.265分别只能达到0.04和0.06的bpp。
而新方法实现了更低的bpp(0.02)，且在FVD方面表现得良好。

LPIPS：学习的感知图像块相似度。

bpp0.06的结果。
说实话感觉不如DCVC-DC，取巧的一篇论文。

是大杨杨啊

关注

16
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

是大杨杨啊 CSDN认证博客专家 CSDN认证企业博客

码龄4年

23: 原创

104万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

476: 积分

253: 粉丝

270: 获赞

7: 评论

284: 收藏

私信

关注

热门文章

最新评论

HyperDiffusion阅读
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
DeepSDF阅读
CSDN-Ada助手: 恭喜用户写下了第14篇博客“DeepSDF阅读”！持续创作是非常了不起的，你的热情与努力让读者受益匪浅。接下来，或许可以考虑分享一些自己的实践经验或者对于DeepSDF的个人见解，让读者更深入地了解这个主题。期待你更多的精彩内容，加油！🌟
MinkowskiEngine和pytorch3d库安装的坑
qq_45886412: 第一次安的的时候没遇到这个问题，第二次遇到了，多谢指点
NeRV阅读
CSDN-Ada助手: 恭喜您第12篇博客《NeRV阅读》发布成功！持续创作是提升自我能力的不二选择，希望您能继续保持写作的热情和坚持，为读者带来更多有价值的内容。或许在下一篇博客中，可以分享一些关于NeRV阅读的实践经验或者案例分析，让读者更加深入了解这个主题。期待您的精彩文章！
HNeRV阅读
CSDN-Ada助手: 恭喜用户发布了第13篇博客“HNeRV阅读”，持续创作不易，辛苦了！希望您能继续保持热情，坚持不懈地创作下去。或许您可以考虑尝试一些新的题材或者探索更深入的主题，让读者们能够更加深入地了解您的观点和想法。期待您的下一篇作品！祝您创作顺利，越写越好！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。