点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
作者介绍
张鑫杰
香港科技大学电子与计算机工程系在读博士生,研究方向为图像视频压缩,
个人主页为https://xinjie-q.github.io/
内容简介
多视角图像压缩在3D相关应用程序中起着至关重要的作用。现有方法采用预测编码架构,需要联合编码来压缩相应的视差和残差信息。这要求相机之间的协作并在不同视图之间强制执行对极几何校正,使得在具有随机重叠视野的分布式相机系统中部署这些方法具有挑战性。幸运的是,分布式信源编码理论表明,通过独立编码和联合解码可以实现相关源的高效数据压缩,这促使我们设计基于学习的分布式多视角图像编码(LDMIC)框架。借助独立的编码器,LDMIC在解码器中引入了一个简单而有效的联合上下文传输模块,该模块基于交叉注意力机制来有效捕获不同视图间的全局相关性。实验结果表明,LDMIC在享受快速编码速度的同时,显著优于传统和基于学习的MIC方法。
论文链接:https://arxiv.org/abs/2301.09799
代码链接:https://github.com/Xinjie-Q/LDMIC
01
Definition
多视角图像编码指给定一组从不同视角来捕获当前感兴趣区域的相关图片,通过利用视角间的相关性来进行压缩和解压缩。多视角图像编码的方案在现实生活当中有着许多重要的应用,比如机器人导航、自动驾驶和视频监控。在这些应用中,我们经常会部署双目摄像头或者三目摄像头来去产生多视角图像。除此之外,在3D视频的生成当中,比如自由试点视频的生成当中,我们需要对同一个场景来部署多个摄像头捕获当前场景中的不同视角。由于通信带宽的限制,我们需要应用多视角编码的框架来尽可能减少传输所需要的比特数。
02
Benchmarks<