学习日记day1

文章介绍了如何从不同步的多目视频重建3D动态循环视频,重点探讨了MPI作为场景表示的优势,以及它如何解决存储和实时渲染问题。作者还提到了相关技术,如2D循环视频构建和NeRF在3D视频表示中的应用,但指出NeRF方法因显存需求大而不适用于此场景。
摘要由CSDN通过智能技术生成

怕什么真理无穷,进一步有进一步的欢喜。

记录下零零碎碎的学习过程。自己学习的时候总是不专注,喜欢打开聊天软件喜欢刷微博或者是翻看logs。于是决定学到哪记到哪,静下心来。

颜色按重要性区分,>>绿>>灰,本周准备汇报+报告+考试

接下来想读的论文:        CVPR'23 最新 89 篇论文分方向整理|涵盖视频目标检测、关键点检测、异常检测、语义分割、超分辨率、图像去噪等方向 - 知乎 (zhihu.com)

学习配虚拟环境:        (17条消息) python虚拟环境的安装与配置(究极详细易理解版!!!)_安装虚拟环境_昱Wy的博客-CSDN博客        Python虚拟环境Virtualenv详解 - 知乎 (zhihu.com)

今天读论文:

        CVPR2023.pdf (limacv.github.io)

        直接阅读时遇到了很多障碍,不得其解。好在作者在知乎对论文进行介绍,慢慢啃。CVPR2023论文介绍:3D循环视频构建 (3D Video Loops from Asynchronous Input) - 知乎 (zhihu.com)

Rendering(渲染、绘制) is the process of generating an image from a 2D or 3D model (or           models in what collectively could be called a scene file), by means of computer programs.分类部分还没看。

        作者提出一个方法,它能从不同步的多目视频重建出一个3D的动态循环视频,并且提出了一种场景表示,它能较好的压缩3D视频,并且能在手机端实时渲染出来。

        多目视觉:双目视觉的一种延申,它是在双目视觉的基础上,增加一台或多台摄像机作为辅助进行测量,从而获得不同角度下同一物体的多对图像。

        3D视频:会动的三维场景/可以在任意视角下看的三维视频。注意不是指的那种3D电影,3D电影的视角其实只有两个(左眼和右眼)。

        大脑成像原理:

        偏振光3D眼镜:

        偏振光指的是光波的振动方向沿着同一个平面,我们平时看到的灯光或者太阳光,光在每一个平面都有偏振,因此它们都属于非偏振光。而偏振光3D眼镜,每个镜片只允许特定的偏振光通过。左右镜片的偏振光的偏振方向互相垂直,它们携带的成像信息略有差别,这样最后我们看到的就是立体的3D图像了。如下图所示,左边镜片通过的是水平偏振的光,右边镜片通过的是垂直方向的偏振光,两束偏振光所携带的成像信息略有差别,经过我们大脑处理后就会变成3D图像了。因此,说的简单一些3D电影实现的关键在于给我们的左右双眼输入了稍有差别的图案,然后经过我们大脑视觉系统的处理之后,屏幕上的图案就变成了看起来像是具有立体感的实物一样。、、

         3D循环视频:在3D视频基础上,是一个循环视频(looping video),循环的意思是从视频最后一帧切换到第一帧时,肉眼看不出明显的切换痕迹。这样有一个好处,就是对于本身就接近循环的场景而言,我只需要一段短视频,就可以源源不断的生成无穷无尽的视频。它的具体应用,比如用于一些网页的teaser,配图,或者当作一些虚拟背景,比如虚拟会议的背景,VR应用的北京,等等 。

        不同步的多目视频:这是一个不严格的定义。对于这个方法的输入来说,我需要在不同视角下拍一段视频,每一段视频基本需要在同一视点(相机位置不变),但是不同视角的视频可以不同步,即可以用一个相机分别在不同的视角拍摄,这样完全不同步的数据我们的方法也是可以处理的。

        作者对相关工作划分为了三点,分别为构建2D循环视频、3D视频表示和MPI(multiplane image)场景表示。

        构建2D循环视频,是个比较小众的方向。之前的方法大致的做法是,1.输入一个视角不变的视频,相当于我们有FxHxWx3(FxHxWx3表示视频的尺寸,其中f表示帧数,h表示视频的高度,w表示视频的宽度,3表示颜色通道,即RGB三个通道。因此fxhxwx3是一个三维数组,表示视频中每一帧上每个像素的RGB颜色值)的一个视频,2.我们通过优化方法得到每个像素位置的最佳循环,即对于每个HxW个像素,每个位置在F帧中取出一个较好的循环片段,这个片段的结尾和开头的差别不能太大。3.这样我们能重新组合出一个视频,利用一些blending的操作,我们可以把一些不太连续的片段给变连续。具体可以看这一篇。Fast computation of seamless video loops (hhoppe.com) 

        3D视频表示,其实3D视频本身就是一个还在发展的方向,因为即使对于静态场景而言,比较好的重建出3D也是比较难的事情。对于动态视频而言,又增加了一个维度,所以问题更加困难。最近又几个用NeRF来重建3D的工作,都非常不错,之后有时间来系统一下这方面的工作。(我可不敢这样说;;作者好大的口气)但是这篇文章没有用NeRF,或者TensorRF,Triplane,NGP等NeRF-like的3D场景表示,主要是因为NeRF的训练非常占用显存,特别是如果在训练过程中一次性训练一个大的video patch(计算机领域中,patch一般可以理解为图像或视频中的一个小块区域。这个区域的大小可以根据需要来定义,通常是一个正方形或长方形。这句话指使用深度学习方法对一个比较大的视频图像进行训练,目的是提取出其中的特征,或者用训练好的模型对新的视频图像进行分类、识别等任务),对于NeRF-like的场景表示来说GPU memory占用是不可想象的(大致估计如果用NeRF来优化本文中的方法,需要大概6TB的显存)。

        MPI场景表示,又叫Multiplane Image,多层图像。这篇文章的3D视频表示,是基于MPI的,就是看中它渲染和优化都比较快。它的原理其实十分简单,看下图就能一眼看懂,其实就是分布在视锥体下的一层一层图片,每一层图片带有一个透明度alpha通道。这样渲染的时候只要从远到近,开启alpha-blending就可以得到最终的结果。ICCV 2021 | 字节跳动利用单张图片做三维重建:将NeRF、MPI结合,提出MINE - 知乎 (zhihu.com)

具体方法1-MTV场景表示

        前文中提到我们基于MPI。但是如果非常直接的将MPI拓展到动态视频,它将会占用非常大的存储资源。对于32层的MPI,有60帧视频,图像分辨率为640x360,那么将会用60x32x640x360x4个float来存储这个表示。(先看到这里)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值