游不动的鱼-learning-CSDN博客

原创 Mastering Diverse Domains through World Models

通用智能需要解决多个领域的任务。人们认为强化学习算法具有这种潜力，但它一直受到为新任务调整所需资源和知识的阻碍。在 DeepMind 的一项新研究中，研究人员提出了DreamerV3，一种基于世界模型的通用可扩展的算法，它在具有固定超参数的广泛领域中优于以前的方法。这些领域包括连续和离散动作、视觉和低维输入、2D 和 3D 世界、不同的数据量、奖励频率和奖励等级。研究人员观察到DreamV3还具有良好的扩展特性，能够通过更大的模型参数会带来更好的效果。

2023-05-08 11:31:09 429

原创 GIRAFFE：Representing Scenes as Compositional Generative Neural Feature Fields

深度生成模型可以在高分辨率下进行逼真的图像合成。但对于许多应用来说，这还不够：内容创作还需要做到可控。GRAF加入了形状编码和外观编码，实现对场景中物体的编辑。GiRAFFE的关键假设是，**将组合式三维场景表示纳入生成模型，可以使图像合成更加可控。**将场景表示为生成性神经特征场，使得能够从背景中分离出一个或多个物体，以及单个物体的形状和外观，同时无需任何额外的监督就能从非结构化和非posed的图像集中学习。将这种场景表示与神经渲染管道结合起来，可以产生一个快速而真实的图像合成模型。

2023-04-19 21:13:23 239

原创 RegNeRF: Regularizing Neural Radiance Fields for View Synthesis from Sparse Inputs

nerf因其简单性和SOTA的表现已成为新视图合成任务的有力代表。NeRF的输入为多个视图的图片时，能够生成新的相机视角的照片级真实感的渲染图片，但当输入视图变少时，性能会显著下降。在现实世界的应用场景，比如AR/VR、自动驾驶、机器人等，这些场景下能获取到的输入通常是稀疏的，每个场景只有很少的视图（关于特定对象或部分区域的视图），在这些场景下，NeRF渲染得到的新视图的质量显著下降。

2023-04-12 20:04:48 665

原创 nerfstudio安装

nerfstudio安装

2023-04-11 17:27:11 3456 7

原创 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

自然语言处理过去几年最重要的文章之一，NLP领域在BERT之前一直没有一个深的神经网络训练好之后应用在其他任务上面，很多时候都是每个人对自己的任务训练一个网络，BERT出现之后，NLP领域可以在一个比较大的数据集上，训练好一个比较深的神经网络，然后应用在很多NLP任务上面，既简化了训练过程，又提升了性能，使得NLP领域得到质的飞跃。

2023-04-10 22:30:02 696

原创 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Genera

BLIP是一种新的 VLP 框架，在广泛的下游视觉语言任务（包括基于理解和基于生成的任务）上具有最先进的性能。

2023-04-10 22:27:54 722 2

原创【论文阅读】GRAF_ Generative Radiance Fields for 3D-Aware Image Synthesis

本文提出了一个辐射场的生成模型，该模型已被证明在单一场景的新型视图合成中是成功的。与基于体素的表征相比，辐射场并不局限于三维空间的粗略离散，而是允许分解相机和场景属性，同时在重建模糊性的情况下优雅地退化。通过引入一个基于多尺度patch-based的判别器，仅通过未处理的二维图像训练本文中的模型，也能实现高分辨率图像的合成。

2023-04-04 09:41:51 295 1

原创 NeRF原理

NeRF是隐式表达进行三维重建的方法，不需要中间三维重建的过程，仅根据位姿内参和图像，直接合成新视角下的图像。NeRF做到了利用”隐式表示“实现了照片级的视角合成效果，它选择了Volume作为中间3D场景表征，然后再通过Volume rendering实现了特定视角照片合成效果。可以说NeRF实现了从离散的照片集中学习出了一种隐式的Volume表达，然后在某个特定视角，利用该隐式Volume表达和体渲染得到该视角下的照片。

2023-04-03 10:22:35 991 1

原创【论文解读】CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields

提出了一种神经辐射场(NeRF)的多模态3D目标操控方法，CLIP-NeRF。通过利用最近的对比文本-图像预训练(CLIP)模型的联合文本-图像嵌入空间，提出了一个统一的框架，可以用短文本提示或示例图像以用户友好的方式操控NeRF。

2023-04-03 08:38:02 914 1

KeepLearning1的博客