Iron_lyk-CSDN博客

原创 pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

我们研究 “generalizable novel view synthesis from sparse image observations” 的问题。可微分渲染给NVS领域带来了革命性的进展，但是也受限于它需要大的时间、内存，因为可微分渲染要计算每个相机射线上的数十个或数百个点。这启发了light-field transformers（SRT，Light field networks，Light field neural networks），它们通过将光线嵌入到query token中来渲染光线。

2024-01-01 12:49:57 4227

原创 GPS-Gaussian:Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis

尽管NeRF的加速技术取得了进步，但是基于NeRF的NVS方法普遍上仍然是time-consuming，因为他们需要在scene space中查询 dense points。另一方面，显式表示，特别是点云，由于其高速甚至实时的渲染性能而引起了持续的关注。一旦与神经网络集成，基于点的graphics与NeRF相比，实现了一种很有前途的显式表示，具有相当的真实性和极高的效率。再到最近，3DGS实现了实时和高质量的渲染。

2023-12-22 21:23:27 2244

原创《HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting》

为了引入人体结构先验，最近的文本驱动 3D 人体生成研究将 SDS 与 SMPL 等模型结合起来。具体来说，一个常见的做法是将人体先验集成到网格（mesh）和神经辐射场（NeRF）等表示中，或者通过将身体形状作为网格 / 神经辐射场密度初始化，或者通过学习基于线性混合蒙皮（Linear Blend Skinning）的形变场。然而，它们大多在效率和质量之间进行权衡：基于 mesh 的方法很难对配饰和褶皱等精细拓扑进行建模；而基于 NeRF 的方法渲染高分辨率结果对时间和显存的开销非常大。如何高效地实现细粒度

2023-12-13 20:30:08 1908

原创《DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation》

在3D content creation方面的最新进展大多利用通过SDS进行的基于优化3D生成。虽然已经显示出了有希望的结果，但这些方法的per-sample optimization往往比较缓慢，限制了它们的实际应用。在这篇文章中，我们提出了DreamGaussian，同时实现efficiency和quality。我们的key insight是设计一个生成的三维高斯溅模型，在UV空间中进行友好的网格提取和纹理细化。与NeRF使用的occupancy pruning优化过程相反，我们证明了在三维生成任务中，

2023-12-13 11:53:11 1854

原创【ECCV 2022】《Transformers as Meta-learners for Implicit Neural Representations》

与像素、体素和网格等离散数据表示相比，INRs不需要依赖于分辨率的二次或三次存储。它们的表示能力并不依赖于网格分辨率，而是依赖于神经网络的能力，神经网络可以捕获底层数据结构并减少表示的冗余，因此提供了一个紧凑（compact）而强大的连续（continuous）数据表示。

2023-11-30 13:51:15 1114

原创【NeuIPS 2023】《Operator Learning with Neural Fields: Tackling PDEs on General Geometries》

第二个工作旨用已知的偏微分方程来告知INRs，类似于PINN，而本文的方法完全是由数据驱动的，没有物理先验。但是，它们仍然有design rigidity，在训练和推理过程中依赖于固定的网格，这限制了他们在现实应用中的使用，比如irregular sampling grids和new geometries。GNN通常在一个小半径内选择最近的邻居，这可能会引入对训练过程中看到的网格类型的偏差（就是说，GNN这种方式其实引入了网络类型的局部拓扑结构的归纳偏置，所以在测试时会受这种归纳偏置的影响）。

2023-11-26 22:59:25 1239

原创【NeuIPS 2021】《Meta-learning sparse implicit neural representations》

目前的INRs方法很难被扩展到用于大量的信号或数据集（也就是无法泛化？），因为每个INR的参数都很heavy，且需要很大的内存和计算。为此，这篇文章提出使用元学习的方法，结合稀疏约束下的网络压缩，这样它呈现一个初始化良好的稀疏参数化，在随后的训练中可以快速演化为一组未见过的信号。这篇文章证明，当使用相同数量的优化步骤进行训练以适合每个信号时，meta-learned sparse neural representations比具有相同数量参数的dense meta-learned models获得的损失要小

2023-11-22 16:45:59 284

原创基于Adapter用CLIP进行Few-shot Image Classification

CLIP-Adapter、Tip-Adapter、Meta-Adapter文章阅读笔记

2023-11-18 22:44:51 1905

原创【NeuIPS‘2023】《Hypernetwork-based Meta-Learning for Low-Rank Physics-Informed Neural Networks》

PINNs与coordinate-based MLPs（或者叫INRs）一样，有着同样的弱点。对于一个新的data instance（a new PDE for PINNs 或 a new image for INRs），需要重新训练一个神经网络。了解决上述的问题，这篇文章提出了：1）一种PINNs的low-rank结构的神经网络架构，叫做 low-rank PINNs (LR-PINNs)；2）一种有效的rank-revealing训练算法，它自适应地调整LR-PINNs的秩以适应不同的PDE输入；

2023-11-13 21:26:55 448

原创用于3D Visual Grounding的多模态场景图

语言图中的每个节点和边，对应于文本描述L中提到的object和它在L中被提到的与其他object的关系。

2023-11-05 21:54:02 594

原创 Instant-NGP论文笔记

另外，在创建数据集时，会计算一个bounding-box，这是为了计算grid用的（https://github.com/yashbhalgat/HashNeRF-pytorch中的get_bboxed_from_blenderobj()函数可以计算）。instant-ngp的nerf模型包含两个MLP，第一个MLP就两个全连接，输入维度是32（16层分辨率x2），输出是16（用于预测密度）。第二个MLP有三个全连接，输入如下（16+16），输出是3（rgb）。

2023-11-05 21:53:12 877

原创【Nature】Human-like systematic generalization through a meta-learning neural network

通过元学习来实现Human-like的系统泛化

2023-11-02 22:06:07 1854 1

原创【ICCV‘23】One-shot Implicit Animatable Avatars with Model-based Priors

现有的方法要想从sparse-views 输入中重建human avatar，要么需要dense input signals（视频或多视图），要么从大规模特定的3D human数据集中学习先验。他们的大多数都不能从单视图中重建human avatar。为了实现data-efficient的human avatar制作，这篇文章提出了ELICIT。

2023-10-31 16:09:14 294

原创 NeRF综述

神经辐射场综述

2023-10-24 20:23:19 1734 1

原创图像超分辨率&超分辨率NeRF论文阅读

Code:xxx。如下图所示 xxx。Code: Nonexxx。如下图所示 xxx。Code:xxx。如下图所示 xxx。Code:Code:xxx。如下图所示 xxx。Code:Code:Code:

2023-10-21 16:13:36 676

原创 Reading notes for ICCV‘23

ICCV 2023论文阅读笔记

2023-10-14 16:02:00 986

原创 Sparse Input Novel View Synthesis

sparse input nvs

2023-07-16 22:24:59 711

原创 NeRF-Diffusion系列文章阅读

（外貌，纹理）。最后渲染出的图像不仅用GT来监督，还用CLIP loss来监督。在预训练扩散模型火爆之后，这一系列的工作逐渐开始使用预训练扩散模型（Imagen/Stable-diffusion）作为guidance，最初的文章是DreamFusion，它提出了SDS损失，后续的工作都是基于SDS来做的。这里对SDS（Score Distillation Sampling）做一个回顾。

2023-06-08 16:05:33 2745

原创局部特征匹配(LoFTR) & 基于全局匹配的光流学习(GMFlow)

局部特征匹配LoFTR与光流匹配GMFlow学习笔记

2023-05-27 21:19:18 7973 3

原创域泛化（Domain Generalization）相关知识学习

领域泛化的目标是从一个或几个不同但相关的领域（训练集）学习一个模型，在unseen的测试领域上得到很好的泛化。（在DG的定义中，“different but related” 是重点，就是说domains虽然不同，但是一定得相关，每个domain包含的类别其实是相同的。）

2023-05-25 10:44:22 17553 3

原创 NeRF-VAE：将场景看作一个分布【ICML‘2021】

论文标题：Neural scene representation and rendering作者：S. M. Ali Eslami, Danilo Jimenez Rezende, et al.期刊：Science发表时间：2018/06/15该文章提出了生成查询网络（Generative Query Network，GQN）。要解决的问题是从不同角度输入一个场景的图像，构建出内在表征，并使用这种表征预测场景中未观察到的部分。

2023-05-24 21:48:43 1190

原创在三维场景中构造关系

但是在Scan2Cap以及相关的工作中，对inter-object关系的构造，是一个神经网络来学习两个object之间的关系（输入是两个object feature的拼接，输出的这两个之间的边），这种方式是比较隐式的，没有对这些复杂的关系进行直接的编码，所以导致了sub-optimal results。对于3DDC和3DVG（3D Visual Grounding）任务而言，探索目标间的关系都是很重要的，因为这是理解3D scene的重要环节，理解了3D scene才能更好的完成这两个任务。

2023-05-20 20:13:21 216

原创 Meta-learning综述

本文首先回顾了监督、无监督、弱监督学习方法的联系和区别，并进一步回顾了域偏移、域适应、域泛化和迁移学习的定义，以及详细介绍了小样本学习（Few-shot Learning），最后全面了解元学习，并比较了它与传统机器学习的相同与区别。

2023-05-12 20:16:23 1665 3

原创预训练模型之BERT、Transformer-XL、XL-Net等

对于语言序列。

2023-04-30 21:11:58 2051 1

原创 Graph Transformer系列论文阅读

Graph Transformer系列论文阅读

2023-04-13 11:12:44 1926 2

原创 MAE论文阅读《Masked Autoencoders Are Scalable Vision Learners》

MAE采用了MIM的思想，随机mask掉部分patchs然后进行重建，并有两个核心的设计： 1）设计了一个非对称的encoder-decoder结构，这个非对称体现在两方面：一方面decoder采用比encoder更轻量级设计，encoder首先使用linear将patch映射为embedding，然后采用的是ViT模型，decoder是一个包含几个transformer blocks轻量级模块，最后一层是一个linear层采用的是一个；另外一方面encoder只处理visible patchs，而deco

2023-04-12 12:44:50 654 1

原创《Relational Attention: Generalizing Transformers for Graph-Structured Tasks》【ICLR2023-spotlight】

这样做了以后，就实现了最初的设计理念，即：保留了Transformer的架构，引入entities之间的relative relation，并condition Transformer on these relations，还保存了Transformer的。attentional GNNs只计算边向量上的attention，也就是说它们是受邻接矩阵的约束的，并且每一层中，边向量是不更新的。是一个identity 函数，相当于什么操作没有，也就是说下个阶段的边向量等于当前的边向量，也就是不对边做更新。

2023-04-10 20:24:55 1129

原创 Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】

Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】

2023-04-10 15:01:02 622

原创 NeurIPS2020《Object-Centric Learning with Slot Attention》&RNN、LSTM、GRU

Slot Attention要做的事是：从 CNN 的 feature map 中聚类/抽象出 set of slots。对slot的理解是"each slot can store (and bind to) any object in the input"。

2023-04-08 22:45:19 2737

原创 Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】

为了在现实世界中执行人类指令，机器人应该理解自然语言，并能够在3D环境中ground上述物体。语言表达通常是描述物体在3D场景中的relative spatial relations来指定物体的。比如上图中的这两个例子，就要消除同一类目标中的歧义目标。鉴于 spatial language 的重要性，许多方法长时间莫3DVG中的空间关系。早期大家使用GNN来建模关系，但是他们只能捕捉最近邻的关系。近年来，Transformer架构被广泛采用，因为它可以直接建模 pair object之间的关系。然而，使

2023-04-06 23:43:08 159

原创 Image as set points【ICLR 2023 notable top 5%】

目前两种主流的从图像中提取特征的范式：ConvNets，ViTs。ConvNets 将图像概念化为一组排列成矩形形式的像素，并以滑动窗口的方式使用卷积提取局部特征。卷积网络非常高效的原因是得益于一些重要的归纳偏置 (inductive bias)，如局部性 (locality) 和平移等变性 (translation equivariance)。视觉 Transformer 将图像视为一块块组成的序列，并使用全局注意力操作自适应地融合来自每个 Patch 的信息。这丢弃了CNN中的归纳偏置，所以在大量的数

2023-04-04 16:29:26 679

原创 Text-to-3D Generation

文本到3D图像生成论文串读

2023-03-27 20:37:44 5103

原创扩散模型的数学理解

扩散模型(diffusion model)的数学理解

2023-03-25 17:26:42 3676 1

原创 LERF: Language Embedded Radiance Fields

人类使用自然语言来描述物理世界，并基于广泛的属性来指代特定的三维位置：视觉外观、语义、抽象联想或可操作的启示。在这项工作中，我们提出了Language Embedded Radiance Fields（LERF），这是一种将Language embedding嵌入到NeRF的方法。LERF在NeRF中学习了一个dense、多尺度的language field，通过沿着训练射线进行体素渲染CLIP embedding，跨训练视图监督这些embedding，以提供多视图的一致性和平滑language field

2023-03-23 22:06:51 665

[精品]HyperMesh与Abaqus接口培训教材.pdf

空空如也