学习日记day1

海绵宝宝小姜儿

已于 2023-05-30 16:43:16 修改

阅读量117

点赞数

文章标签：学习

于 2023-05-29 09:55:36 首次发布

本文链接：https://blog.csdn.net/qq_41567706/article/details/130921047

版权

文章介绍了如何从不同步的多目视频重建3D动态循环视频，重点探讨了MPI作为场景表示的优势，以及它如何解决存储和实时渲染问题。作者还提到了相关技术，如2D循环视频构建和NeRF在3D视频表示中的应用，但指出NeRF方法因显存需求大而不适用于此场景。

摘要由CSDN通过智能技术生成

怕什么真理无穷，进一步有进一步的欢喜。

记录下零零碎碎的学习过程。自己学习的时候总是不专注，喜欢打开聊天软件喜欢刷微博或者是翻看logs。于是决定学到哪记到哪，静下心来。

颜色按重要性区分，红>蓝>绿>黑>灰，本周准备汇报+报告+考试！

接下来想读的论文: CVPR'23 最新 89 篇论文分方向整理｜涵盖视频目标检测、关键点检测、异常检测、语义分割、超分辨率、图像去噪等方向 - 知乎 (zhihu.com)

学习配虚拟环境: (17条消息) python虚拟环境的安装与配置(究极详细易理解版！！！)_安装虚拟环境_昱Wy的博客-CSDN博客 Python虚拟环境Virtualenv详解 - 知乎 (zhihu.com)

今天读论文:

CVPR2023.pdf (limacv.github.io)

直接阅读时遇到了很多障碍，不得其解。好在作者在知乎对论文进行介绍，慢慢啃。CVPR2023论文介绍：3D循环视频构建 (3D Video Loops from Asynchronous Input) - 知乎 (zhihu.com)

Rendering(渲染、绘制) is the process of generating an image from a 2D or 3D model (or models in what collectively could be called a scene file), by means of computer programs.分类部分还没看。

作者提出一个方法，它能从不同步的多目视频重建出一个3D的动态循环视频，并且提出了一种场景表示，它能较好的压缩3D视频，并且能在手机端实时渲染出来。

多目视觉:双目视觉的一种延申，它是在双目视觉的基础上，增加一台或多台摄像机作为辅助进行测量，从而获得不同角度下同一物体的多对图像。

3D视频:会动的三维场景/可以在任意视角下看的三维视频。注意不是指的那种3D电影，3D电影的视角其实只有两个（左眼和右眼）。

大脑成像原理:

偏振光3D眼镜:

偏振光指的是光波的振动方向沿着同一个平面，我们平时看到的灯光或者太阳光，光在每一个平面都有偏振，因此它们都属于非偏振光。而偏振光3D眼镜，每个镜片只允许特定的偏振光通过。左右镜片的偏振光的偏振方向互相垂直，它们携带的成像信息略有差别，这样最后我们看到的就是立体的3D图像了。如下图所示，左边镜片通过的是水平偏振的光，右边镜片通过的是垂直方向的偏振光，两束偏振光所携带的成像信息略有差别，经过我们大脑处理后就会变成3D图像了。因此，说的简单一些3D电影实现的关键在于给我们的左右双眼输入了稍有差别的图案，然后经过我们大脑视觉系统的处理之后，屏幕上的图案就变成了看起来像是具有立体感的实物一样。、、

3D循环视频:在3D视频基础上，是一个循环视频（looping video），循环的意思是从视频最后一帧切换到第一帧时，肉眼看不出明显的切换痕迹。这样有一个好处，就是对于本身就接近循环的场景而言，我只需要一段短视频，就可以源源不断的生成无穷无尽的视频。它的具体应用，比如用于一些网页的teaser，配图，或者当作一些虚拟背景，比如虚拟会议的背景，VR应用的北京，等等。

不同步的多目视频:这是一个不严格的定义。对于这个方法的输入来说，我需要在不同视角下拍一段视频，每一段视频基本需要在同一视点（相机位置不变），但是不同视角的视频可以不同步，即可以用一个相机分别在不同的视角拍摄，这样完全不同步的数据我们的方法也是可以处理的。

作者对相关工作划分为了三点，分别为构建2D循环视频、3D视频表示和MPI(multiplane image)场景表示。

构建2D循环视频，是个比较小众的方向。之前的方法大致的做法是，1.输入一个视角不变的视频，相当于我们有FxHxWx3（FxHxWx3表示视频的尺寸，其中f表示帧数，h表示视频的高度，w表示视频的宽度，3表示颜色通道，即RGB三个通道。因此fxhxwx3是一个三维数组，表示视频中每一帧上每个像素的RGB颜色值）的一个视频，2.我们通过优化方法得到每个像素位置的最佳循环，即对于每个HxW个像素，每个位置在F帧中取出一个较好的循环片段，这个片段的结尾和开头的差别不能太大。3.这样我们能重新组合出一个视频，利用一些blending的操作，我们可以把一些不太连续的片段给变连续。具体可以看这一篇。Fast computation of seamless video loops (hhoppe.com)

3D视频表示，其实3D视频本身就是一个还在发展的方向，因为即使对于静态场景而言，比较好的重建出3D也是比较难的事情。对于动态视频而言，又增加了一个维度，所以问题更加困难。最近又几个用NeRF来重建3D的工作，都非常不错，之后有时间来系统一下这方面的工作。（我可不敢这样说；；作者好大的口气）但是这篇文章没有用NeRF，或者TensorRF，Triplane，NGP等NeRF-like的3D场景表示，主要是因为NeRF的训练非常占用显存，特别是如果在训练过程中一次性训练一个大的video patch（计算机领域中，patch一般可以理解为图像或视频中的一个小块区域。这个区域的大小可以根据需要来定义，通常是一个正方形或长方形。这句话指使用深度学习方法对一个比较大的视频图像进行训练，目的是提取出其中的特征，或者用训练好的模型对新的视频图像进行分类、识别等任务），对于NeRF-like的场景表示来说GPU memory占用是不可想象的（大致估计如果用NeRF来优化本文中的方法，需要大概6TB的显存）。

MPI场景表示，又叫Multiplane Image，多层图像。这篇文章的3D视频表示，是基于MPI的，就是看中它渲染和优化都比较快。它的原理其实十分简单，看下图就能一眼看懂，其实就是分布在视锥体下的一层一层图片，每一层图片带有一个透明度alpha通道。这样渲染的时候只要从远到近，开启alpha-blending就可以得到最终的结果。ICCV 2021 | 字节跳动利用单张图片做三维重建：将NeRF、MPI结合，提出MINE - 知乎 (zhihu.com)

~~具体方法1-MTV场景表示~~

前文中提到我们基于MPI。但是如果非常直接的将MPI拓展到动态视频，它将会占用非常大的存储资源。对于32层的MPI，有60帧视频，图像分辨率为640x360，那么将会用60x32x640x360x4个float来存储这个表示。（先看到这里）

海绵宝宝小姜儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
学习日记day1

想读的论文:CVPR'23 最新 89 篇论文分方向整理｜涵盖视频目标检测、关键点检测、异常检测、语义分割、超分辨率、图像去噪等方向 - 知乎 (zhihu.com)学习配虚拟环境:(17条消息) python虚拟环境的安装与配置(究极详细易理解版！！！)_安装虚拟环境_昱Wy的博客-CSDN博客Python虚拟环境Virtualenv详解 - 知乎 (zhihu.com)
复制链接

扫一扫