自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(152)
  • 收藏
  • 关注

原创 [SIGGRAPH-24] CharacterGen

​LRM能否用于3D数字人重建?问题在于:1)缺少3D数字人数据;2)重建任意姿态的3D数字人不利于后续绑定和驱动。构建3D数字人数据集:在VRoidHub上采集数据,得到13746个风格化角色,分别渲染固定视角和固定标准姿态下的图片和随机角度和姿态下的图片,用以训练以图片为条件的多角度扩散模型。映射到标准姿态:输入一张任意姿态的人像图片,首先生成标准姿态下的四角度图片,其次重建3D角色(微调LRM,Large Reconstruction Model),最后通过Auto-Rigging等操作实现3D

2024-09-18 22:05:49 1065

原创 [24] ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

任务:新视角生成(Novel View Synthesis),仅使用单图/稀疏视角图片重建3D物体。本文提出一种基于单图/稀疏图像的通用3D重建方法ViewCrafter:从输入图片中初始化点云;使用相机轨迹规划算法(content-daptive camera trajectory planning),根据当前点云确定相机轨迹序列。

2024-09-08 17:45:37 446

原创 [CVPR-24] Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

任务:4D场景风格化固定view(相机视角),生成时序视频,使得4D场景可以被多组时序视频表示:)编辑第一帧,将编辑后的第一帧作为anchor view,生成其他视角的第一帧;2)使用时序-空间性一致方法编辑其他帧。

2024-08-31 20:48:55 883

原创 [Tools: LoRA] Diffusers中Stable Diffusion的实现

Diffusers中的Attention操作实现在AttnProcessor类(diffusers.models.attention_processor.py),里面定义了单次Attention操作。添加LoRA,本质上是用LoRAAttnProcessor类替换AttnProcessor类。

2024-08-29 14:44:10 589

原创 [CVPR-24] Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction

本文提出一种基于单图输入的快速3D重建方法。为生成3DGS,本文引入了额外的point decoder,预测单图的3D点云,通过3D点云在tri-plane中query特征,预测对应的3D高斯属性,从而得到最终的重建3DGS。为增强鲁棒性,本文受CVPR-23的PC2启发,将点云光栅化到图片上,获取每个3D点云的局部图像特征(DINO特征、图像RGB、Mask等)。该特征会用于增强点云上采样、和tri-plane特征concat之后预测3D高斯属性、以及Tri-plane的解码中。

2024-08-24 14:52:30 174

原创 [ICLR-24-Spotlight] DMV3D: Denoising Multi-View Diffusion Using 3D Large Reconstruction Model

受CVPR-23的RenderDiffusion启发,DMV3D用LRM作为Denoiser,将t步Tri-plane逐步去噪为0步Tri-plane,从而生成3D目标。

2024-08-24 00:18:15 309

原创 [ICLR-24] Instant3D: Fast Text-to-3D with Sparse-view Generation and Large Reconstruction Model

Instant3D可在20s内快速生成高质量3D模型。LRM仅使用单图作为重建输入。本文提出使用Multi-view Diffusion Model得到四个视角图片,在image encoder中编码四个视角图片,concat在一起后送入后续的image-to-triplane decoder网络。

2024-08-23 21:41:10 716

原创 [ECCV-24] LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

LRM、Instant3D等方法需要在128卡A100(40G)上训练3天,渲染图片分辨率为128 x 128。本文认为瓶颈在于这些方法中使用的Triplane-NeRF渲染速度慢。因此,提出使用3DGS替代Triplane-NeRF。最终实现32卡A100(80G)上训练4天,渲染图片分辨率为512 x 512。

2024-08-23 17:01:46 635

原创 [ICLR-24] LRM: Large Reconstruction Model for Single Image to 3D

本文首次提出大型重建模型(Large Reconstruction Model, LRM),实现5s内对单图物体的3D重建。在128张A100(40G)上训练30 epochs。

2024-08-22 16:23:16 432

原创 [24] Graphic Design with Large Multimodal Model

Graphist将海报生成任务转化为序列生成问题,将所有元素转换为RGB-A图像作为输入,输出JSON草稿,每个元素的坐标、位置和顺序。为HLG任务设计了多个评价指标,包括:Inverse Order Pair Ratio (IOPR)和GPT-4V Eval,前者评估了层顺序的准确率,后者评估了生成质量。海报生成:组合多个符号、图像和文本。下图为本文所提方法Graphist的一个生成示例,左上角第一张图为输入元素,JSON是Graphist输出的排列,右上角两张图分别为排列可视化和最终海报生成效果。

2024-08-17 16:45:16 250

原创 [ICML-24] Non-confusing Generation of Customized Concepts in Diffusion Models

文本引导的扩散模型中存在概念视觉混淆(inter-concept visual confusion)问题。由于缺乏用户提供的样本,该问题在定制化内容生成中更加严重。现有文本引导扩散模型(text-guided diffusion models, TGDMs)通常包括:1)CLIP:对齐文本编码和视觉编码;2)扩散模型:将文本编码解码为像素。但是现有方法定制化方法通常仅fine-tuning第二部分,而忽略了第一部分。本文提出了CLIF(contrastive image-language fine-t

2024-08-01 15:55:04 873

原创 [CVPR-24] HUGS: Human Gaussian Splats

本文提出一种新的数字人表征Human Gaussian Splats (HUGS),可以实现新姿态和新视角生成;本文提出一种新的前向形变模块(forward deformation module),在标定空间基于Gaussians表征数字人,并基于LBS学习如何驱动数字人;HUGS从50-100帧单目视频中创建数字人,经过30分钟训练,可在高分辨率下实现60FPS渲染;HUGS在NeuMan、ZJU-Mocap数据集上实现sota重建质量。

2024-05-29 11:48:00 798 1

原创 [CVPR-24] SplattingAvatar: Realistic Real-Time Human Avatars with Mesh-Embedded Gaussian Splatting

使用重心坐标可以较为方便的基于三角面片顶点的属性插值(首先计算顶点属性,其次用顶点属性插值得到Gaussian属性)。使用重心坐标可以较为方便的判断Gaussian是否在三角面片内,进而可以让Gaussian在三角面片上“行走”(改变Gaussian所对应的三角面片)。基于C++实现三角面片“行走”代码,效率很高(3.5ms),同时3DGS可以用Unity渲染。

2024-05-28 17:21:53 620 1

原创 [NeurIPS-23] GOHA: Generalizable One-shot 3D Neural Head Avatar

本文提出一种基于单图的可驱动虚拟人像重建框架。基于3DMM给粗重建、驱动结果,基于神经辐射场给细粒度平滑结果。

2024-04-28 16:08:01 670

原创 [ICLR-24] GPAvatar: Generalizable and Precise Head Avatar from Images(s)

提出GPAvatar,实现可驱动的单图虚拟头像重建(Head avatar reconstruction)。重建:给定图像得到对应Tri-plane。在此基础上,本文提出了MTA,可以融合多张图片输入信息,缓解单张图片中存在遮挡的问题。驱动:受Point-Avatar启发,给每个FLAME绑定一个特征,对于任意点,检索其K个最近邻FLAME三角面片,根据K个三角面片绑定特征的加权和计算该点的表情特征。从实验效果上看,对跨域人像效果不错

2024-04-27 17:16:14 714

原创 [CVPR-24] GenN2N: Generative NeRF2NeRF Translation

由于2D编辑存在多视角不一致性问题,本文提出通过生成模型建模每个2D编辑对应的潜在3D编辑。给定一个NeRF场景,本文提出GenN2N,可以借助2D图片编辑方法实现多视角一致的3D编辑,包括:文本引导编辑(text-driven editing)、着色(colorization)、超分(superresolution)和图像修复(inpainting)。

2024-04-05 18:09:18 562

原创 [CVPR-24] Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative

类似DFF、LeRF等,将Grounded DINO的2D Mask知识lifting到3D。通过渲染得到的Mask,分别对前景进行编辑,对背景进行约束。提出局部编辑(仅对前景编辑)和全局编辑交替进行的训练策略,使得在约束背景的情况下,使前背景和谐。提出在图片驱动的编辑中,局部编辑不使用V*,来减缓多脸问题。

2024-03-19 20:07:41 1108

原创 [24-ECCV] SWAG: Splatting in the Wild images with Appearance-conditioned Gaussians

相较于重建任务,in-the-wild的图片来自不同时间,相同场景的外观具有较大差异。本文引入两个由训练图片决定的变量:颜色变量和不透明度变量。1)颜色变量:实现对相同场景不同外观的建模;2)不透明度变量:对移动物体的建模。

2024-03-19 00:09:24 490

原创 [CVPR-24] Text-to-3D using Gaussian Splatting

本文发现:1)3DGS对初始化敏感;2)引入基于Point-E的3D SDS可以缓解多脸问题;3)外观细化阶段可以有效抑制异常点,并提高可视化效果;4)不需要对SDS的改进,用gudiance scale=100可以取得很不错的结果。

2024-03-18 22:47:33 1067

原创 [CVPR-23] Instant Volumetric Head Avatars

本文提出INSTA。INSTA是一种backward mapping方法。该方法基于NeRF建立标准空间,形变空间(任意表情)通过映射回标准空间,实现渲染。为实现形变空间中任意点向标准空间的映射,对形变空间中的任意点:1)找到最近邻三角面片;2)通过该三角面片和对应标定空间中的三角面片计算形变梯度;3)通过形变梯度将该点映射回标准空间;给定一段单目RGB肖像视频,该视频记录了目标人物的不同表情和视角,实现对未见表情和视角的渲染。

2023-12-21 22:09:00 1026

原创 [CVPR-23] PointAvatar: Deformable Point-based Head Avatars from Videos

PointAvatar基于点云表征动态场景。目标是根据给定的一段单目相机视频,重建目标的数字人,并且数字人可驱动;通过标定空间(canonical space)和形变空间(deformation space)表征场景。其中,标定空间中的任意点坐标,首先映射至FLAME空间,通过对应FLAME的相关系数(表情、位姿和LBS)从FLAME空间映射至形变空间。该点的颜色,被拆解为与姿态无关的反射率(albedo)和与姿态相关的阴影(shading)。其中前者根据点在标定空间中的坐标预测得到,后者根据点在形变

2023-12-20 21:08:42 1204

原创 [CVPR-24] Generative Image Dynamics

动作位移场:光流;动作纹理:光流的频谱图,对像素点在T时间序列下的位移轨迹做FFT得到;任务目标:给定图片,预测其未来T帧的震荡变化给定图片,预测K个频谱图; -> 动作预测模块给定频谱图,通过逆傅立叶变换得到光流;给定光流,渲染未来T帧。 -> 渲染模块

2023-12-20 00:13:57 971

原创 [CVPR-24] GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

给定FLAME,基于每个三角面片中心初始化一个3D Gaussian(3DGS);当FLAME mesh被驱动时,3DGS根据它的父亲三角面片,做平移、旋转和缩放变化;3DGS可以视作mesh上的辐射场;为实现高保真的avatar,本文提出一种蒙皮(binding)继承策略,在优化过程中,保持蒙皮对3DGS的控制;

2023-12-19 00:10:26 2555

原创 [23] Self-conditioned Image Generation via Generating Representations

提出一种无条件图像生成框架Representation-Conditioned image Generation (RCG);RCG的控制信号来自自监督表征分布,该分布是预训练编码器对图片处理得到;生成过程中,RCG使用representation diffusion model (RDM) 从该分布中采样,作为控制条件生成图像;

2023-12-11 16:00:14 273

原创 [CVPR-24] 4K4D: Real-Time 4D View Synthesis at 4K Resolution

现有问题:动态场景中,渲染高分辨率图片很慢;本文:提出基于K-Planes的4D point cloud Representation,支持硬件光栅化,实现快速渲染;提出一种hybrid appearance model,在提高渲染质量的同时,保证渲染效率;设计一种可导的深度排序算法(deep peeling algorithm),实现从RGB视频中快速建模;实验证明,在一张4090 GPU上,可以实现对1080分辨率的400FPS渲染,4K分辨率的80FPS渲染。

2023-11-23 21:16:47 1239 1

原创 [SIGGRAPH-23] 3D Gaussian Splatting for Real-Time Radiance Field Rendering

NeRF效果好,但是训练和渲染很花时间;特别是对1080p分辨率渲染的场景,现有方法无法实现实时渲染。本文引入三个关键部分,实现sota视觉质量、较短训练时间和1080p分辨率下新视角实时渲染。。通过camera calibration中产生的稀疏点进行初始化。这种新的3D表达形式在保存NeRF优点的同时,避免了空白空间不必要的计算开销;。实现3D Gaussian的交替优化和密度控制,优化各向异性协方差矩阵实现对场景的准确表达;Rendering。

2023-11-23 00:19:55 3209

原创 [23] T^3Bench: Benchmarking Current Progress in Text-to-3D Generation

3D生成蓬勃发展,主流方法通过事例比较和用户调查来评价方法好坏,缺少客观比较指标;本文提出T3Bench,首次综合比较了不同生成方法;具体来说,本文设计了质量评估(Quality Assessment)和对齐评估(Alignment Assessment),前者评价生成物体的质量,后者评价生成物体与文本的对齐程度;针对质量评估,本文提出一种多视角ImageReward的评估方法。具体来说,本文以3D物体为中心,构建二阶二十面体(level-2 icosahedron),以多面体顶点为相机位置渲染

2023-10-15 16:07:04 812

原创 [23] IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts

Text-to-3D任务中,对3D模型外观的控制不强,本文提出IPDreamer来解决该问题。在NeRF Training阶段,IPDreamer根据文本用ControlNet生成参考图,并将参考图作为Zero 1-to-3的控制条件,用基于Zero 1-to-3的SDS损失生成粗NeRF。在Mesh Training阶段,IPDreamer将NeRF用DMTet转换为3D Mesh,并分别优化Mesh的几何与纹理。1)用参考图的法向图编码作为控制信号,用IPSD (Image Prompt Score

2023-10-14 14:45:11 1171

原创 [23] SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D

本文探索了3D生成中的view-inconsistency problem(也称为Janus Problem)。为解决该问题,本文提出Aligning Geometric Priors (AGP)。具体来说,本文在3D数据集Objaverse上fine-tune Stable Diffusion,在相机参数作为控制信号情况下,使Stable Diffusion生成具有深度信息的Canonical Coordinate map。Fine-tune得到的AGP,可以加入现有text-to-3D pipeli

2023-10-10 21:09:15 291

原创 [ICCV-23] DeformToon3D: Deformable Neural Radiance Fields for 3D Toonification

3D人脸风格化;3D GAN直接在艺术域(artistic domain)上fine-tuning,效果不错。但存在两个问题:1)会破坏3D GAN原有的隐空间,影响后续的语义编辑;2) 每种新风格需要额外训练,限制了部署。为了解决上述两个问题,本文提出DeformToon3D。本文方法将3D卡通化(toonification)问题,分解为几何与纹理风格化。本文提出StyleField,预测条件控制的3D形变(conditional 3D deformation),实现几何风格化;

2023-10-09 19:37:15 691

原创 [ICCV-23] Paper List - 3D Generation-related

ICCV-23 paper list

2023-10-06 23:49:15 966

原创 [23] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion

本文中,vocels的数量初始化为N,但这会导致形状较难改变,因此本文提出dynamic scaling。本文使用DVGO,该方法是一中voxel grid-based implicit 3D representations,以3D vocel grid的形式保留密度和颜色信息。其中,y是文本描述。但是现有方法有两个问题:1)直接fine-tune 3D场景,可能到导致失去原3D场景的特征;6. 由于有两个控制条件,最后的噪声由下式求得,其中s_I和s_T是用于控制图片和文本控制强度的超参数。

2023-08-09 13:40:26 812

原创 [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

DreamFusion是目前基于文本的3D生成任务的主流方法,但它有两个重要缺陷:1)NeRF收敛速度慢;2)用于监督NeRF训练的图片质量较差,导致生成的3D目标质量较差。对于上述两个问题,本文提出:1)用Instant-NGP替换DreamFusion中的NeRF;2)提出一中两阶段Coarse-to-fine的优化方法,第一步:基于Instant NGP表示低分辨率的3D物体,通过eDiff-I计算L_SDS,更新NeRF;

2023-08-08 21:56:56 878

原创 [TVCG-23] NeRF-Art: Text-Driven Neural Radiance Fields Stylization

传统的CLIP损失如下式,用于拉近渲染图像和目标文本的距离,其中I_tgt是渲染图像,t_tgt是目标文本。更进一步,本文发现式(5)关注全局,而忽略了局部。因此,本文受PatchNCE loss启发,进一步提出了局部损失,其中I_tgt替换为随机crop的局部块。因此,本文提出了relative directional loss,其中t_src是原图的描述文本。为增加风格,本文进一步提出基于对比学习策略的损失。其中,L_per是perceptual loss,基于预训练的VGG层计算。

2023-08-05 00:08:23 291

原创 [NeurIPS-22] Decomposing NeRF for Editing via Feature Field Distillation

对于图片I中任意像素点r,是文本标签l的概率如下式所示,其中f_img是pixel-level图片特征,f_q是queried text feature。如果x'被选中,则x'将代替x计算颜色和密度,如果x和x'同时被选中,并且都不是非零密度,则以alpha为比例,混合两者颜色。因此,可以通过上述步骤求得任意3D点的标签,以及给定任意标签,可以确定对应的3D点。近期,DINO,一种自监督视觉模型,通过计算相邻帧间特征的相似度,解决视频实例分割和跟踪问题。(1)根据相机内外参数,选定射线上的3D点x_i;

2023-08-04 23:16:17 544

原创 [CVPR-22] CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields

每次训练时,从高斯分布中采样形状编码和外观编码,从上半球坐标系中采样相机位置。本文引入了形状变形网络(shape deformation network),输入为坐标x和形状编码z_s,输出是delta_x,维度是3 x 2m。因此,为更彻底的解耦形状编码,本文提出了Conditional Shape Deformation。对任意坐标,可映射为2m维特征,其中k是{0, ..., 2m-1}。具体来说,在NeRF的基础上,引入了形状编码z_s和外观编码z_a,两个编码均采样自高斯分布。

2023-08-04 20:57:37 383

原创 [23] Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

在此基础上,本文提出Control4D,并引入一种阶段性(staged)训练策略,提高了3D编辑的高保真性和连续性,同时让4D场景更快收敛。避免直接用修改图像作为监督信号。

2023-08-03 18:56:20 319

原创 [Tools: Pycharm] Bug合集

1. Debug mode:Pycharm不显示变量值(Unable to display frame variables);在python console中交互不输出值。

2023-07-28 15:34:37 1148

原创 [Tools: Camera Conventions] NeRF中的相机矩阵估计

在NeRF中,一个重要的步骤是确定射线(rays)的初始点和方向。根据射线的初始点和方向,和设定射线深度和采样点数量,可以估计该射线成像的像素值。估计得到的像素值,在训练中用于计算损失更新参数,在测试中用于渲染图像。

2023-07-27 18:51:44 2145

原创 [Tools: tiny-cuda-nn] Linux安装

如果服务器上recursive下载失败,考虑本地下载zip包,上传至服务器并解压。该命令中的recursive,是用于下载tiny-cuda-nn中的两个依赖包:cutlass和fmt。将新版gcc路径添加至~/.bashrc,如果能正确输出gcc版本,则安装成功。最便捷的安装方式,如果安装失败考虑本地编译。该包可以显著提高NeRF训练速度,是。等框架中,必须使用的。

2023-07-25 19:28:48 8314 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除