自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Iron_lyk Blog

简单记录生活

  • 博客(77)
  • 资源 (1)
  • 收藏
  • 关注

原创 pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

我们研究 “generalizable novel view synthesis from sparse image observations” 的问题。可微分渲染给NVS领域带来了革命性的进展,但是也受限于它需要大的时间、内存,因为可微分渲染要计算每个相机射线上的数十个或数百个点。这启发了light-field transformers(SRT,Light field networks,Light field neural networks),它们通过将光线嵌入到query token中来渲染光线。

2024-01-01 12:49:57 2405

原创 GPS-Gaussian:Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis

尽管NeRF的加速技术取得了进步,但是基于NeRF的NVS方法普遍上仍然是time-consuming,因为他们需要在scene space中查询 dense points。另一方面,显式表示,特别是点云,由于其高速甚至实时的渲染性能而引起了持续的关注。一旦与神经网络集成,基于点的graphics与NeRF相比,实现了一种很有前途的显式表示,具有相当的真实性和极高的效率。再到最近,3DGS实现了实时和高质量的渲染。

2023-12-22 21:23:27 1612

原创 《HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting》

为了引入人体结构先验,最近的文本驱动 3D 人体生成研究将 SDS 与 SMPL 等模型结合起来。具体来说,一个常见的做法是将人体先验集成到网格(mesh)和神经辐射场(NeRF)等表示中,或者通过将身体形状作为网格 / 神经辐射场密度初始化,或者通过学习基于线性混合蒙皮(Linear Blend Skinning)的形变场。然而,它们大多在效率和质量之间进行权衡:基于 mesh 的方法很难对配饰和褶皱等精细拓扑进行建模;而基于 NeRF 的方法渲染高分辨率结果对时间和显存的开销非常大。如何高效地实现细粒度

2023-12-13 20:30:08 1587

原创 《DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation》

在3D content creation方面的最新进展大多利用通过SDS进行的基于优化3D生成。虽然已经显示出了有希望的结果,但这些方法的per-sample optimization往往比较缓慢,限制了它们的实际应用。在这篇文章中,我们提出了DreamGaussian,同时实现efficiency和quality。我们的key insight是设计一个生成的三维高斯溅模型,在UV空间中进行友好的网格提取和纹理细化。与NeRF使用的occupancy pruning优化过程相反,我们证明了在三维生成任务中,

2023-12-13 11:53:11 1482

原创 【ECCV 2022】《Transformers as Meta-learners for Implicit Neural Representations》

与像素、体素和网格等离散数据表示相比,INRs不需要依赖于分辨率的二次或三次存储。它们的表示能力并不依赖于网格分辨率,而是依赖于神经网络的能力,神经网络可以捕获底层数据结构并减少表示的冗余,因此提供了一个紧凑(compact)而强大的连续(continuous)数据表示。

2023-11-30 13:51:15 885

原创 【NeuIPS 2023】《Operator Learning with Neural Fields: Tackling PDEs on General Geometries》

第二个工作旨用已知的偏微分方程来告知INRs,类似于PINN,而本文的方法完全是由数据驱动的,没有物理先验。但是,它们仍然有design rigidity,在训练和推理过程中依赖于固定的网格,这限制了他们在现实应用中的使用,比如irregular sampling grids和new geometries。GNN通常在一个小半径内选择最近的邻居,这可能会引入对训练过程中看到的网格类型的偏差(就是说,GNN这种方式其实引入了网络类型的局部拓扑结构的归纳偏置,所以在测试时会受这种归纳偏置的影响)。

2023-11-26 22:59:25 914

原创 【NeuIPS 2021】《Meta-learning sparse implicit neural representations》

目前的INRs方法很难被扩展到用于大量的信号或数据集(也就是无法泛化?),因为每个INR的参数都很heavy,且需要很大的内存和计算。为此,这篇文章提出使用元学习的方法,结合稀疏约束下的网络压缩,这样它呈现一个初始化良好的稀疏参数化,在随后的训练中可以快速演化为一组未见过的信号。这篇文章证明,当使用相同数量的优化步骤进行训练以适合每个信号时,meta-learned sparse neural representations比具有相同数量参数的dense meta-learned models获得的损失要小

2023-11-22 16:45:59 132

原创 基于Adapter用CLIP进行Few-shot Image Classification

CLIP-Adapter、Tip-Adapter、Meta-Adapter文章阅读笔记

2023-11-18 22:44:51 921

原创 【NeuIPS‘2023】《Hypernetwork-based Meta-Learning for Low-Rank Physics-Informed Neural Networks》

PINNs与coordinate-based MLPs(或者叫INRs)一样,有着同样的弱点。对于一个新的data instance(a new PDE for PINNs 或 a new image for INRs),需要重新训练一个神经网络。了解决上述的问题,这篇文章提出了:1)一种PINNs的low-rank结构的神经网络架构,叫做 low-rank PINNs (LR-PINNs);2)一种有效的rank-revealing训练算法,它自适应地调整LR-PINNs的秩以适应不同的PDE输入;

2023-11-13 21:26:55 220

原创 用于3D Visual Grounding的多模态场景图

语言图中的每个节点和边,对应于文本描述L中提到的object和它在L中被提到的与其他object的关系。

2023-11-05 21:54:02 303

原创 Instant-NGP论文笔记

另外,在创建数据集时,会计算一个bounding-box,这是为了计算grid用的(https://github.com/yashbhalgat/HashNeRF-pytorch中的get_bboxed_from_blenderobj()函数可以计算)。instant-ngp的nerf模型包含两个MLP,第一个MLP就两个全连接,输入维度是32(16层分辨率x2),输出是16(用于预测密度)。第二个MLP有三个全连接,输入如下(16+16),输出是3(rgb)。

2023-11-05 21:53:12 638

原创 【Nature】Human-like systematic generalization through a meta-learning neural network

通过元学习来实现Human-like的系统泛化

2023-11-02 22:06:07 1072

原创 【ICCV‘23】One-shot Implicit Animatable Avatars with Model-based Priors

现有的方法要想从sparse-views 输入中重建human avatar,要么需要dense input signals(视频或多视图),要么从大规模特定的3D human数据集中学习先验。他们的大多数都不能从单视图中重建human avatar。为了实现data-efficient的human avatar制作,这篇文章提出了ELICIT。

2023-10-31 16:09:14 205

原创 NeRF综述

神经辐射场综述

2023-10-24 20:23:19 1172 1

原创 图像超分辨率&超分辨率NeRF论文阅读

Code:xxx。如下图所示 xxx。Code: Nonexxx。如下图所示 xxx。Code:xxx。如下图所示 xxx。Code:Code:xxx。如下图所示 xxx。Code:Code:Code:

2023-10-21 16:13:36 404

原创 Reading notes for ICCV‘23

ICCV 2023论文阅读笔记

2023-10-14 16:02:00 632

原创 Sparse Input Novel View Synthesis

sparse input nvs

2023-07-16 22:24:59 485

原创 NeRF-Diffusion系列文章阅读

(外貌,纹理)。最后渲染出的图像不仅用GT来监督,还用CLIP loss来监督。在预训练扩散模型火爆之后,这一系列的工作逐渐开始使用预训练扩散模型(Imagen/Stable-diffusion)作为guidance,最初的文章是DreamFusion,它提出了SDS损失,后续的工作都是基于SDS来做的。这里对SDS(Score Distillation Sampling)做一个回顾。

2023-06-08 16:05:33 2241

原创 局部特征匹配(LoFTR) & 基于全局匹配的光流学习(GMFlow)

局部特征匹配LoFTR与光流匹配GMFlow学习笔记

2023-05-27 21:19:18 5644 3

原创 域泛化(Domain Generalization)相关知识学习

领域泛化的目标是从一个或几个不同但相关的领域(训练集)学习一个模型,在unseen的测试领域上得到很好的泛化。(在DG的定义中,“different but related” 是重点,就是说domains虽然不同,但是一定得相关,每个domain包含的类别其实是相同的。)

2023-05-25 10:44:22 10109 2

原创 NeRF-VAE:将场景看作一个分布【ICML‘2021】

论文标题:Neural scene representation and rendering作者:S. M. Ali Eslami, Danilo Jimenez Rezende, et al.期刊:Science发表时间:2018/06/15该文章提出了生成查询网络(Generative Query Network,GQN)。要解决的问题是从不同角度输入一个场景的图像,构建出内在表征,并使用这种表征预测场景中未观察到的部分。

2023-05-24 21:48:43 976

原创 在三维场景中构造关系

但是在Scan2Cap以及相关的工作中,对inter-object关系的构造,是一个神经网络来学习两个object之间的关系(输入是两个object feature的拼接,输出的这两个之间的边),这种方式是比较隐式的,没有对这些复杂的关系进行直接的编码,所以导致了sub-optimal results。对于3DDC和3DVG(3D Visual Grounding)任务而言,探索目标间的关系都是很重要的,因为这是理解3D scene的重要环节,理解了3D scene才能更好的完成这两个任务。

2023-05-20 20:13:21 76

原创 Meta-learning综述

本文首先回顾了监督、无监督、弱监督学习方法的联系和区别,并进一步回顾了域偏移、域适应、域泛化和迁移学习的定义,以及详细介绍了小样本学习(Few-shot Learning),最后全面了解元学习,并比较了它与传统机器学习的相同与区别。

2023-05-12 20:16:23 1138 3

原创 预训练模型之BERT、Transformer-XL、XL-Net等

对于语言序列。

2023-04-30 21:11:58 1658

原创 Graph Transformer系列论文阅读

Graph Transformer系列论文阅读

2023-04-13 11:12:44 1360 2

原创 MAE论文阅读《Masked Autoencoders Are Scalable Vision Learners》

MAE采用了MIM的思想,随机mask掉部分patchs然后进行重建,并有两个核心的设计: 1)设计了一个非对称的encoder-decoder结构,这个非对称体现在两方面:一方面decoder采用比encoder更轻量级设计,encoder首先使用linear将patch映射为embedding,然后采用的是ViT模型,decoder是一个包含几个transformer blocks轻量级模块,最后一层是一个linear层采用的是一个;另外一方面encoder只处理visible patchs,而deco

2023-04-12 12:44:50 519

原创 《Relational Attention: Generalizing Transformers for Graph-Structured Tasks》【ICLR2023-spotlight】

这样做了以后,就实现了最初的设计理念,即:保留了Transformer的架构,引入entities之间的relative relation,并condition Transformer on these relations,还保存了Transformer的。attentional GNNs只计算边向量上的attention,也就是说它们是受邻接矩阵的约束的,并且每一层中,边向量是不更新的。是一个identity 函数,相当于什么操作没有,也就是说下个阶段的边向量等于当前的边向量,也就是不对边做更新。

2023-04-10 20:24:55 724

原创 Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】

Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】

2023-04-10 15:01:02 368

原创 NeurIPS2020《Object-Centric Learning with Slot Attention》&RNN、LSTM、GRU

Slot Attention要做的事是:从 CNN 的 feature map 中聚类/抽象出 set of slots。对slot的理解是"each slot can store (and bind to) any object in the input"。

2023-04-08 22:45:19 1785

原创 Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】

为了在现实世界中执行人类指令,机器人应该理解自然语言,并能够在3D环境中ground上述物体。语言表达通常是描述物体在3D场景中的relative spatial relations来指定物体的。比如上图中的这两个例子,就要消除同一类目标中的歧义目标。鉴于 spatial language 的重要性,许多方法长时间莫3DVG中的空间关系。早期大家使用GNN来建模关系,但是他们只能捕捉最近邻的关系。近年来,Transformer架构被广泛采用,因为它可以直接建模 pair object之间的关系。然而,使

2023-04-06 23:43:08 80

原创 Image as set points【ICLR 2023 notable top 5%】

目前两种主流的从图像中提取特征的范式:ConvNets,ViTs。ConvNets 将图像概念化为一组排列成矩形形式的像素,并以滑动窗口的方式使用卷积提取局部特征。卷积网络非常高效的原因是得益于一些重要的归纳偏置 (inductive bias),如局部性 (locality) 和平移等变性 (translation equivariance)。 视觉 Transformer 将图像视为一块块组成的序列,并使用全局注意力操作自适应地融合来自每个 Patch 的信息。这丢弃了CNN中的归纳偏置,所以在大量的数

2023-04-04 16:29:26 579

原创 Text-to-3D Generation

文本到3D图像生成论文串读

2023-03-27 20:37:44 4039

原创 扩散模型的数学理解

扩散模型(diffusion model)的数学理解

2023-03-25 17:26:42 2122 1

原创 LERF: Language Embedded Radiance Fields

人类使用自然语言来描述物理世界,并基于广泛的属性来指代特定的三维位置:视觉外观、语义、抽象联想或可操作的启示。在这项工作中,我们提出了Language Embedded Radiance Fields(LERF),这是一种将Language embedding嵌入到NeRF的方法。LERF在NeRF中学习了一个dense、多尺度的language field,通过沿着训练射线进行体素渲染CLIP embedding,跨训练视图监督这些embedding,以提供多视图的一致性和平滑language field

2023-03-23 22:06:51 383

原创 【3D-FRONT】Readme

3D-FRONT数据集Readme

2023-03-20 10:52:06 425

原创 DALL·E 2 论文阅读笔记

DALL-E 2 论文阅读笔记。图像生成、AE、VAE、VQ-VAE、DALL-E、Diffusion model

2023-03-11 19:57:09 4918 3

原创 《统计学习方法》(李航)——学习笔记

《统计学习方法》(李航)学习笔记

2023-03-09 22:01:42 1489

原创 概率论与数理统计基础知识

【机器学习】《概率论与数理统计》基础知识笔记

2023-03-08 20:21:41 3394

原创 从AE(Auto-encoder)到VAE(Variational Auto-Encoder)

自动编码器(Auto-Encoder)和变分自动编码器(Variational Auto-Encoder)学习笔记

2023-03-02 16:13:17 1715

原创 Attention中Q,K,V的 作用机制

Attention中Q,K,V的 作用机制

2023-03-01 16:10:06 923

[精品]HyperMesh与Abaqus接口培训教材.pdf

该文档详细介绍了Hypermesh与Abaqus两款软件在对接过程中会出现的问题,以及操作流程,能够起到引导和培训读者的作用

2019-08-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除