论文阅读笔记
文章平均质量分 91
Iron_lyk
中山大学智能工程学院
展开
-
pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
我们研究 “generalizable novel view synthesis from sparse image observations” 的问题。可微分渲染给NVS领域带来了革命性的进展,但是也受限于它需要大的时间、内存,因为可微分渲染要计算每个相机射线上的数十个或数百个点。这启发了light-field transformers(SRT,Light field networks,Light field neural networks),它们通过将光线嵌入到query token中来渲染光线。原创 2024-01-01 12:49:57 · 2082 阅读 · 0 评论 -
GPS-Gaussian:Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis
尽管NeRF的加速技术取得了进步,但是基于NeRF的NVS方法普遍上仍然是time-consuming,因为他们需要在scene space中查询 dense points。另一方面,显式表示,特别是点云,由于其高速甚至实时的渲染性能而引起了持续的关注。一旦与神经网络集成,基于点的graphics与NeRF相比,实现了一种很有前途的显式表示,具有相当的真实性和极高的效率。再到最近,3DGS实现了实时和高质量的渲染。原创 2023-12-22 21:23:27 · 1565 阅读 · 0 评论 -
《HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting》
为了引入人体结构先验,最近的文本驱动 3D 人体生成研究将 SDS 与 SMPL 等模型结合起来。具体来说,一个常见的做法是将人体先验集成到网格(mesh)和神经辐射场(NeRF)等表示中,或者通过将身体形状作为网格 / 神经辐射场密度初始化,或者通过学习基于线性混合蒙皮(Linear Blend Skinning)的形变场。然而,它们大多在效率和质量之间进行权衡:基于 mesh 的方法很难对配饰和褶皱等精细拓扑进行建模;而基于 NeRF 的方法渲染高分辨率结果对时间和显存的开销非常大。如何高效地实现细粒度原创 2023-12-13 20:30:08 · 1520 阅读 · 0 评论 -
《DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation》
在3D content creation方面的最新进展大多利用通过SDS进行的基于优化3D生成。虽然已经显示出了有希望的结果,但这些方法的per-sample optimization往往比较缓慢,限制了它们的实际应用。在这篇文章中,我们提出了DreamGaussian,同时实现efficiency和quality。我们的key insight是设计一个生成的三维高斯溅模型,在UV空间中进行友好的网格提取和纹理细化。与NeRF使用的occupancy pruning优化过程相反,我们证明了在三维生成任务中,原创 2023-12-13 11:53:11 · 1440 阅读 · 0 评论 -
【ECCV 2022】《Transformers as Meta-learners for Implicit Neural Representations》
与像素、体素和网格等离散数据表示相比,INRs不需要依赖于分辨率的二次或三次存储。它们的表示能力并不依赖于网格分辨率,而是依赖于神经网络的能力,神经网络可以捕获底层数据结构并减少表示的冗余,因此提供了一个紧凑(compact)而强大的连续(continuous)数据表示。原创 2023-11-30 13:51:15 · 867 阅读 · 0 评论 -
【NeuIPS 2023】《Operator Learning with Neural Fields: Tackling PDEs on General Geometries》
第二个工作旨用已知的偏微分方程来告知INRs,类似于PINN,而本文的方法完全是由数据驱动的,没有物理先验。但是,它们仍然有design rigidity,在训练和推理过程中依赖于固定的网格,这限制了他们在现实应用中的使用,比如irregular sampling grids和new geometries。GNN通常在一个小半径内选择最近的邻居,这可能会引入对训练过程中看到的网格类型的偏差(就是说,GNN这种方式其实引入了网络类型的局部拓扑结构的归纳偏置,所以在测试时会受这种归纳偏置的影响)。原创 2023-11-26 22:59:25 · 896 阅读 · 0 评论 -
【NeuIPS 2021】《Meta-learning sparse implicit neural representations》
目前的INRs方法很难被扩展到用于大量的信号或数据集(也就是无法泛化?),因为每个INR的参数都很heavy,且需要很大的内存和计算。为此,这篇文章提出使用元学习的方法,结合稀疏约束下的网络压缩,这样它呈现一个初始化良好的稀疏参数化,在随后的训练中可以快速演化为一组未见过的信号。这篇文章证明,当使用相同数量的优化步骤进行训练以适合每个信号时,meta-learned sparse neural representations比具有相同数量参数的dense meta-learned models获得的损失要小原创 2023-11-22 16:45:59 · 124 阅读 · 0 评论 -
基于Adapter用CLIP进行Few-shot Image Classification
CLIP-Adapter、Tip-Adapter、Meta-Adapter文章阅读笔记原创 2023-11-18 22:44:51 · 818 阅读 · 0 评论 -
【NeuIPS‘2023】《Hypernetwork-based Meta-Learning for Low-Rank Physics-Informed Neural Networks》
PINNs与coordinate-based MLPs(或者叫INRs)一样,有着同样的弱点。对于一个新的data instance(a new PDE for PINNs 或 a new image for INRs),需要重新训练一个神经网络。了解决上述的问题,这篇文章提出了:1)一种PINNs的low-rank结构的神经网络架构,叫做 low-rank PINNs (LR-PINNs);2)一种有效的rank-revealing训练算法,它自适应地调整LR-PINNs的秩以适应不同的PDE输入;原创 2023-11-13 21:26:55 · 213 阅读 · 0 评论 -
用于3D Visual Grounding的多模态场景图
语言图中的每个节点和边,对应于文本描述L中提到的object和它在L中被提到的与其他object的关系。原创 2023-11-05 21:54:02 · 284 阅读 · 0 评论 -
Instant-NGP论文笔记
另外,在创建数据集时,会计算一个bounding-box,这是为了计算grid用的(https://github.com/yashbhalgat/HashNeRF-pytorch中的get_bboxed_from_blenderobj()函数可以计算)。instant-ngp的nerf模型包含两个MLP,第一个MLP就两个全连接,输入维度是32(16层分辨率x2),输出是16(用于预测密度)。第二个MLP有三个全连接,输入如下(16+16),输出是3(rgb)。原创 2023-11-05 21:53:12 · 615 阅读 · 0 评论 -
【Nature】Human-like systematic generalization through a meta-learning neural network
通过元学习来实现Human-like的系统泛化原创 2023-11-02 22:06:07 · 1043 阅读 · 0 评论 -
【ICCV‘23】One-shot Implicit Animatable Avatars with Model-based Priors
现有的方法要想从sparse-views 输入中重建human avatar,要么需要dense input signals(视频或多视图),要么从大规模特定的3D human数据集中学习先验。他们的大多数都不能从单视图中重建human avatar。为了实现data-efficient的human avatar制作,这篇文章提出了ELICIT。原创 2023-10-31 16:09:14 · 198 阅读 · 0 评论 -
NeRF综述
神经辐射场综述原创 2023-10-24 20:23:19 · 1103 阅读 · 1 评论 -
Reading notes for ICCV‘23
ICCV 2023论文阅读笔记原创 2023-10-14 16:02:00 · 593 阅读 · 0 评论 -
Sparse Input Novel View Synthesis
sparse input nvs原创 2023-07-16 22:24:59 · 472 阅读 · 0 评论 -
NeRF-Diffusion系列文章阅读
(外貌,纹理)。最后渲染出的图像不仅用GT来监督,还用CLIP loss来监督。在预训练扩散模型火爆之后,这一系列的工作逐渐开始使用预训练扩散模型(Imagen/Stable-diffusion)作为guidance,最初的文章是DreamFusion,它提出了SDS损失,后续的工作都是基于SDS来做的。这里对SDS(Score Distillation Sampling)做一个回顾。原创 2023-06-08 16:05:33 · 2169 阅读 · 0 评论 -
局部特征匹配(LoFTR) & 基于全局匹配的光流学习(GMFlow)
局部特征匹配LoFTR与光流匹配GMFlow学习笔记原创 2023-05-27 21:19:18 · 5417 阅读 · 3 评论 -
Graph Transformer系列论文阅读
Graph Transformer系列论文阅读原创 2023-04-13 11:12:44 · 1306 阅读 · 2 评论 -
MAE论文阅读《Masked Autoencoders Are Scalable Vision Learners》
MAE采用了MIM的思想,随机mask掉部分patchs然后进行重建,并有两个核心的设计: 1)设计了一个非对称的encoder-decoder结构,这个非对称体现在两方面:一方面decoder采用比encoder更轻量级设计,encoder首先使用linear将patch映射为embedding,然后采用的是ViT模型,decoder是一个包含几个transformer blocks轻量级模块,最后一层是一个linear层采用的是一个;另外一方面encoder只处理visible patchs,而deco原创 2023-04-12 12:44:50 · 514 阅读 · 0 评论 -
《Relational Attention: Generalizing Transformers for Graph-Structured Tasks》【ICLR2023-spotlight】
这样做了以后,就实现了最初的设计理念,即:保留了Transformer的架构,引入entities之间的relative relation,并condition Transformer on these relations,还保存了Transformer的。attentional GNNs只计算边向量上的attention,也就是说它们是受邻接矩阵的约束的,并且每一层中,边向量是不更新的。是一个identity 函数,相当于什么操作没有,也就是说下个阶段的边向量等于当前的边向量,也就是不对边做更新。原创 2023-04-10 20:24:55 · 702 阅读 · 0 评论 -
Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】
Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】原创 2023-04-10 15:01:02 · 345 阅读 · 0 评论 -
NeurIPS2020《Object-Centric Learning with Slot Attention》&RNN、LSTM、GRU
Slot Attention要做的事是:从 CNN 的 feature map 中聚类/抽象出 set of slots。对slot的理解是"each slot can store (and bind to) any object in the input"。原创 2023-04-08 22:45:19 · 1625 阅读 · 0 评论 -
Language Conditioned Spatial Relation Reasoning for 3D Object Grounding【NeurIPS 2022】
为了在现实世界中执行人类指令,机器人应该理解自然语言,并能够在3D环境中ground上述物体。语言表达通常是描述物体在3D场景中的relative spatial relations来指定物体的。比如上图中的这两个例子,就要消除同一类目标中的歧义目标。鉴于 spatial language 的重要性,许多方法长时间莫3DVG中的空间关系。早期大家使用GNN来建模关系,但是他们只能捕捉最近邻的关系。近年来,Transformer架构被广泛采用,因为它可以直接建模 pair object之间的关系。然而,使原创 2023-04-06 23:43:08 · 75 阅读 · 0 评论 -
Image as set points【ICLR 2023 notable top 5%】
目前两种主流的从图像中提取特征的范式:ConvNets,ViTs。ConvNets 将图像概念化为一组排列成矩形形式的像素,并以滑动窗口的方式使用卷积提取局部特征。卷积网络非常高效的原因是得益于一些重要的归纳偏置 (inductive bias),如局部性 (locality) 和平移等变性 (translation equivariance)。 视觉 Transformer 将图像视为一块块组成的序列,并使用全局注意力操作自适应地融合来自每个 Patch 的信息。这丢弃了CNN中的归纳偏置,所以在大量的数原创 2023-04-04 16:29:26 · 572 阅读 · 0 评论 -
Text-to-3D Generation
文本到3D图像生成论文串读原创 2023-03-27 20:37:44 · 3878 阅读 · 0 评论 -
LERF: Language Embedded Radiance Fields
人类使用自然语言来描述物理世界,并基于广泛的属性来指代特定的三维位置:视觉外观、语义、抽象联想或可操作的启示。在这项工作中,我们提出了Language Embedded Radiance Fields(LERF),这是一种将Language embedding嵌入到NeRF的方法。LERF在NeRF中学习了一个dense、多尺度的language field,通过沿着训练射线进行体素渲染CLIP embedding,跨训练视图监督这些embedding,以提供多视图的一致性和平滑language field原创 2023-03-23 22:06:51 · 351 阅读 · 0 评论 -
【论文阅读】mmSampler: Efficient Frame Sampler for Multimodal Video Retrieval【MLSys 2022】
这篇文章研究的基于自然语言的视频检索任务,具体要做的就是给定一个自然语言搜索queries,要求找到与语言描述相关的视频。最近的SOTA方法将video和query分别做embedding,然后将这两个embedding映射到一个联合潜空间内计算二者的相似度。为了学习视频的表示,现有的解决方法有两种,一种是使用所有的帧,另一种是使用均匀采样从视频中采样出一个帧子集。前者计算量太大,后者可能会将无信息帧注入最终表示从而引入噪声。原创 2023-02-21 21:36:04 · 95 阅读 · 1 评论 -
场景生成及编辑&3D定位论文阅读
场景生成&3D定位论文阅读原创 2023-02-16 16:07:41 · 1166 阅读 · 1 评论 -
NeRF论文阅读笔记
NeRF论文阅读笔记原创 2023-01-07 23:29:07 · 685 阅读 · 0 评论 -
【论文阅读】多任务学习综述《A Survey on Multi-Task Learning》
本文从算法建模、应用和理论分析的角度对多任务学习(MTL)进行了survey。在算法建模中,我们给出了MTL的定义,然后将不同的MTL算法分为 feature learning approach, low-rank approach, taskclustering approach, task relation learning approach, 和decomposition approach五类,并讨论了每种方法的特点。为了进一步提高学习任务的性能,MTL可以与其他学习范式相结合,包括半监督学习、主动原创 2022-11-06 22:00:52 · 642 阅读 · 1 评论 -
Collaborative learning network for head pose estimation【Image and Vision Computing 2022】
本文提出了一个用于头部姿态估计的基于CNN的协同学习框架。框架包含了基于关键点和不基于关键点的两个分支,第一个分支需要先估计出关键点,然后提出了一个Landmark-MLP-Mixer模块来建模从关键点到头部姿态角之间的复杂映射关系,第二个分支则采用标签分布学习策略来估计头部姿态。这两个分支单独的情况下都可以进行头部姿态估计,作者说在这个框架下,这两个分支相互协作,相互促进和互补来学习语义信息。在网络中间,作者还引入了一个双分支的迁移模块来实现显式的语义交互,然后也设计了一个多损失策略来诱导隐式的信息交互。原创 2022-09-26 22:13:10 · 1073 阅读 · 0 评论 -
CLIP论文阅读【Learning Transferable Visual Models From Natural Language Supervision】
目前的计算机视觉模型都是在提前定义好类别的标签集合(数据集)中进行训练的,但是这些监督信号是有限制性的,就导致了限制了模型的泛化性和通用性,尤其是当模型面对新的类别的时候。因此作者提出了一种想法,通过语言信号来监督视觉模型,因为这样的数据是非常容易获取的。作者在互联网上爬了一个有4个亿的图像文本对数据集,来使用多模态的对比学习来训练模型,使用自然语言来引导视觉模型做物体的分类。实验结果证明,CLIP模型学到的特征是具有非常好的泛化性的,迁移效果非常好,能够在不使用任务一张ImageNet128万张训练集的原创 2022-09-25 22:46:56 · 1783 阅读 · 2 评论 -
Swin Transformer 核心思想理解
Swin Transformer的动机和方法原创 2022-09-22 21:57:06 · 697 阅读 · 0 评论 -
Skimming, Locating, then Perusing: A Human-Like Framework for Natural Language Video Localization
这篇文章解决的是自然语言视频定位(NLVL)问题。几乎所有现有的工作都遵循“only look once”框架,该框架利用单一模型直接捕获video-query对之间复杂的跨模态和自模态关系,并检索出相关片段。可是,作者认为这些方法忽略了理想定位方法中所不可缺少的两个特点:1)帧区别性:正负的视频帧是不平衡,在定位过程中突出正样本帧并削弱负样本帧是有效的;2)精确边界:为了预测准确的片段边界,模型应该捕获连续帧之间更细粒度的差异,因为它们的变化通常是平滑的。为此,受人类如何感知和定位一个视频片段的启发,作者原创 2022-09-19 11:30:15 · 435 阅读 · 0 评论 -
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval
视频文本检索在多模态研究中起着至关重要的作用,在许多现实网络应用中得到了广泛的应用。CLIP(Contrastive Language-Image Pretraining)是一种图像-语言预训练模型,它已经证明了从网络收集的图像-文本数据集学习视觉概念的能力。这篇文章提出了一个CLIP4ClipCLIP For video Clip retrieval)模型用来将CLIP模型中的知识以一种端到端的形式迁移到视频-语言检索中。原创 2022-09-18 19:11:20 · 841 阅读 · 0 评论 -
EclipSE: Efficient Long-range Video Retrieval using Sight and Sound
本文提出了一个用于长范围文本-视频检索的音视方法。以往的文本-视频检索大多设计用于短视频检索(5-15秒),本文的方法旨在检索分钟级的视频片段,这样就可以捕捉人类更复杂的行为。一个挑战是单纯的长视频检索方法是从长视频数据中提取出成百上千的密集帧来处理,这样计算量巨大。为了解决这个问题,本文提出了一个名为EclipSE(Efficient CLIP with Sound Encoding) 的方法,选择用简洁的音频线索取代部分视频。这些线索能够简单概括动态的音频事件,并且处理成本更低。通过增加一个统一的视听转原创 2022-09-17 22:55:44 · 528 阅读 · 0 评论 -
HRNet论文笔记及代码详解
高分辨率表征对于像人体姿态估计、语义分割、目标检测等对位置信息敏感的视觉任务极其重要。现有的SOTA框架(比如ResNet、VGGNet)首先通过串联的高分辨率卷积至低分辨率卷积子网络将输入的图像编码为低分辨率表征,然后从已编码的低分辨率表征中回复高分辨率表征。与此相反,本文提出的High-Resolution Network (HRNet), **在整个过程中都保持高分辨率的表征**。它有两个重要特点:**1)并行连接高低分辨率的卷积流分支;2)不断进行不同分支间的信息交互**。通过这两个特点,HRNet原创 2022-07-11 20:48:55 · 4125 阅读 · 0 评论 -
Sparse Local Patch Transformer预测人脸关键点坐标及内在关系 【CVPR 2022]
目前人脸对齐的方法已经取得很好的精度,但是大姿态、重度遮挡、光照变化的情况仍不能够被很好的处理。人脸的面部具有一个regular structure(规则结构),也就是面部地标之间的内在关系,这在人脸对齐中起着重要的作用。虽然近年来热力图回归方法占据了人脸对齐区域的主导地位,但是基于热力图的方法有两点缺陷(原文+自己总结):热力图回归的方式由于是单独回归每张关键点的热力图,所以在预测时缺失了关键点之间的内在关系;从热力图到关键点坐标值是往往采取argmax来获取热力图中最大峰值坐标,由于这一步是不可微.原创 2022-07-09 22:16:17 · 1355 阅读 · 1 评论 -
热力图回归Adaptive Wing Loss [ICCV2019] 论文阅读
基于深度网络的热力图回归方法已成为定位面部关键点的主流方法之一。但是,目前对热力图回归的损失函数的研究却很少。本文对人脸对齐问题中热图回归的理想损失函数性质进行分析。然后,我们提出了一种新的损失函数,称为 Adaptive Wing Loss,它能够使其形状适应不同类型热力图像素的ground truth。这种适应性对前景像素的损失更大,而对背景像素的损失更少。为了解决前景和背景像素之间的不平衡问题,我们还提出了加权损失图(Weighted Loss Map),它在前景和困难的背景像素上分配高权重,以帮助训原创 2022-06-12 17:20:35 · 3352 阅读 · 0 评论