干货!ICLR:基于学习的分布式多视角图像压缩

本文介绍了LDMIC,一种基于学习的分布式多视角图像编码框架,利用独立编码器和解码器中的联合上下文传输模块,通过交叉注意力机制捕捉全局相关性,实现在保持高效编码速度的同时,提升压缩性能。
摘要由CSDN通过智能技术生成

点击蓝字

4d3d7dd517586943c3cf01440f4021a3.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

作者介绍

张鑫杰

f284322d287b63f5833aa6ce8afa5468.png

香港科技大学电子与计算机工程系在读博士生,研究方向为图像视频压缩,

个人主页为https://xinjie-q.github.io/

内容简介

多视角图像压缩在3D相关应用程序中起着至关重要的作用。现有方法采用预测编码架构,需要联合编码来压缩相应的视差和残差信息。这要求相机之间的协作并在不同视图之间强制执行对极几何校正,使得在具有随机重叠视野的分布式相机系统中部署这些方法具有挑战性。幸运的是,分布式信源编码理论表明,通过独立编码和联合解码可以实现相关源的高效数据压缩,这促使我们设计基于学习的分布式多视角图像编码(LDMIC)框架。借助独立的编码器,LDMIC在解码器中引入了一个简单而有效的联合上下文传输模块,该模块基于交叉注意力机制来有效捕获不同视图间的全局相关性。实验结果表明,LDMIC在享受快速编码速度的同时,显著优于传统和基于学习的MIC方法。

论文链接:https://arxiv.org/abs/2301.09799

代码链接:https://github.com/Xinjie-Q/LDMIC

01

Definition

多视角图像编码指给定一组从不同视角来捕获当前感兴趣区域的相关图片,通过利用视角间的相关性来进行压缩和解压缩。多视角图像编码的方案在现实生活当中有着许多重要的应用,比如机器人导航、自动驾驶和视频监控。在这些应用中,我们经常会部署双目摄像头或者三目摄像头来去产生多视角图像。除此之外,在3D视频的生成当中,比如自由试点视频的生成当中,我们需要对同一个场景来部署多个摄像头捕获当前场景中的不同视角。由于通信带宽的限制,我们需要应用多视角编码的框架来尽可能减少传输所需要的比特数。

616c3fe10caa57e94df14cff36493d2f.png

02

Benchmarks<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值