自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(141)
  • 收藏
  • 关注

原创 [CVPR-24] HUGS: Human Gaussian Splats

本文提出一种新的数字人表征Human Gaussian Splats (HUGS),可以实现新姿态和新视角生成;本文提出一种新的前向形变模块(forward deformation module),在标定空间基于Gaussians表征数字人,并基于LBS学习如何驱动数字人;HUGS从50-100帧单目视频中创建数字人,经过30分钟训练,可在高分辨率下实现60FPS渲染;HUGS在NeuMan、ZJU-Mocap数据集上实现sota重建质量。

2024-05-29 11:48:00 714 1

原创 [CVPR-24] SplattingAvatar: Realistic Real-Time Human Avatars with Mesh-Embedded Gaussian Splatting

使用重心坐标可以较为方便的基于三角面片顶点的属性插值(首先计算顶点属性,其次用顶点属性插值得到Gaussian属性)。使用重心坐标可以较为方便的判断Gaussian是否在三角面片内,进而可以让Gaussian在三角面片上“行走”(改变Gaussian所对应的三角面片)。基于C++实现三角面片“行走”代码,效率很高(3.5ms),同时3DGS可以用Unity渲染。

2024-05-28 17:21:53 548 1

原创 [NeurIPS-23] GOHA: Generalizable One-shot 3D Neural Head Avatar

本文提出一种基于单图的可驱动虚拟人像重建框架。基于3DMM给粗重建、驱动结果,基于神经辐射场给细粒度平滑结果。

2024-04-28 16:08:01 647

原创 [ICLR-24] GPAvatar: Generalizable and Precise Head Avatar from Images(s)

提出GPAvatar,实现可驱动的单图虚拟头像重建(Head avatar reconstruction)。重建:给定图像得到对应Tri-plane。在此基础上,本文提出了MTA,可以融合多张图片输入信息,缓解单张图片中存在遮挡的问题。驱动:受Point-Avatar启发,给每个FLAME绑定一个特征,对于任意点,检索其K个最近邻FLAME三角面片,根据K个三角面片绑定特征的加权和计算该点的表情特征。从实验效果上看,对跨域人像效果不错

2024-04-27 17:16:14 682

原创 [CVPR-24] GenN2N: Generative NeRF2NeRF Translation

由于2D编辑存在多视角不一致性问题,本文提出通过生成模型建模每个2D编辑对应的潜在3D编辑。给定一个NeRF场景,本文提出GenN2N,可以借助2D图片编辑方法实现多视角一致的3D编辑,包括:文本引导编辑(text-driven editing)、着色(colorization)、超分(superresolution)和图像修复(inpainting)。

2024-04-05 18:09:18 522

原创 [CVPR-24] Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative

类似DFF、LeRF等,将Grounded DINO的2D Mask知识lifting到3D。通过渲染得到的Mask,分别对前景进行编辑,对背景进行约束。提出局部编辑(仅对前景编辑)和全局编辑交替进行的训练策略,使得在约束背景的情况下,使前背景和谐。提出在图片驱动的编辑中,局部编辑不使用V*,来减缓多脸问题。

2024-03-19 20:07:41 1085

原创 [24] SWAG: Splatting in the Wild images with Appearance-conditioned Gaussians

相较于重建任务,in-the-wild的图片来自不同时间,相同场景的外观具有较大差异。本文引入两个由训练图片决定的变量:颜色变量和不透明度变量。1)颜色变量:实现对相同场景不同外观的建模;2)不透明度变量:对移动物体的建模。

2024-03-19 00:09:24 461

原创 [CVPR-24] Text-to-3D using Gaussian Splatting

本文发现:1)3DGS对初始化敏感;2)引入基于Point-E的3D SDS可以缓解多脸问题;3)外观细化阶段可以有效抑制异常点,并提高可视化效果;4)不需要对SDS的改进,用gudiance scale=100可以取得很不错的结果。

2024-03-18 22:47:33 999

原创 [CVPR-23] Instant Volumetric Head Avatars

本文提出INSTA。INSTA是一种backward mapping方法。该方法基于NeRF建立标准空间,形变空间(任意表情)通过映射回标准空间,实现渲染。为实现形变空间中任意点向标准空间的映射,对形变空间中的任意点:1)找到最近邻三角面片;2)通过该三角面片和对应标定空间中的三角面片计算形变梯度;3)通过形变梯度将该点映射回标准空间;给定一段单目RGB肖像视频,该视频记录了目标人物的不同表情和视角,实现对未见表情和视角的渲染。

2023-12-21 22:09:00 986

原创 [CVPR-23] PointAvatar: Deformable Point-based Head Avatars from Videos

PointAvatar基于点云表征动态场景。目标是根据给定的一段单目相机视频,重建目标的数字人,并且数字人可驱动;通过标定空间(canonical space)和形变空间(deformation space)表征场景。其中,标定空间中的任意点坐标,首先映射至FLAME空间,通过对应FLAME的相关系数(表情、位姿和LBS)从FLAME空间映射至形变空间。该点的颜色,被拆解为与姿态无关的反射率(albedo)和与姿态相关的阴影(shading)。其中前者根据点在标定空间中的坐标预测得到,后者根据点在形变

2023-12-20 21:08:42 1164

原创 [CVPR-24] Generative Image Dynamics

动作位移场:光流;动作纹理:光流的频谱图,对像素点在T时间序列下的位移轨迹做FFT得到;任务目标:给定图片,预测其未来T帧的震荡变化给定图片,预测K个频谱图; -> 动作预测模块给定频谱图,通过逆傅立叶变换得到光流;给定光流,渲染未来T帧。 -> 渲染模块

2023-12-20 00:13:57 823

原创 [CVPR-24] GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians

给定FLAME,基于每个三角面片中心初始化一个3D Gaussian(3DGS);当FLAME mesh被驱动时,3DGS根据它的父亲三角面片,做平移、旋转和缩放变化;3DGS可以视作mesh上的辐射场;为实现高保真的avatar,本文提出一种蒙皮(binding)继承策略,在优化过程中,保持蒙皮对3DGS的控制;

2023-12-19 00:10:26 2181

原创 [23] Self-conditioned Image Generation via Generating Representations

提出一种无条件图像生成框架Representation-Conditioned image Generation (RCG);RCG的控制信号来自自监督表征分布,该分布是预训练编码器对图片处理得到;生成过程中,RCG使用representation diffusion model (RDM) 从该分布中采样,作为控制条件生成图像;

2023-12-11 16:00:14 253

原创 [CVPR-24] 4K4D: Real-Time 4D View Synthesis at 4K Resolution

现有问题:动态场景中,渲染高分辨率图片很慢;本文:提出基于K-Planes的4D point cloud Representation,支持硬件光栅化,实现快速渲染;提出一种hybrid appearance model,在提高渲染质量的同时,保证渲染效率;设计一种可导的深度排序算法(deep peeling algorithm),实现从RGB视频中快速建模;实验证明,在一张4090 GPU上,可以实现对1080分辨率的400FPS渲染,4K分辨率的80FPS渲染。

2023-11-23 21:16:47 1151 1

原创 [SIGGRAPH-23] 3D Gaussian Splatting for Real-Time Radiance Field Rendering

NeRF效果好,但是训练和渲染很花时间;特别是对1080p分辨率渲染的场景,现有方法无法实现实时渲染。本文引入三个关键部分,实现sota视觉质量、较短训练时间和1080p分辨率下新视角实时渲染。。通过camera calibration中产生的稀疏点进行初始化。这种新的3D表达形式在保存NeRF优点的同时,避免了空白空间不必要的计算开销;。实现3D Gaussian的交替优化和密度控制,优化各向异性协方差矩阵实现对场景的准确表达;Rendering。

2023-11-23 00:19:55 2806

原创 [23] T^3Bench: Benchmarking Current Progress in Text-to-3D Generation

3D生成蓬勃发展,主流方法通过事例比较和用户调查来评价方法好坏,缺少客观比较指标;本文提出T3Bench,首次综合比较了不同生成方法;具体来说,本文设计了质量评估(Quality Assessment)和对齐评估(Alignment Assessment),前者评价生成物体的质量,后者评价生成物体与文本的对齐程度;针对质量评估,本文提出一种多视角ImageReward的评估方法。具体来说,本文以3D物体为中心,构建二阶二十面体(level-2 icosahedron),以多面体顶点为相机位置渲染

2023-10-15 16:07:04 779

原创 [23] IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts

Text-to-3D任务中,对3D模型外观的控制不强,本文提出IPDreamer来解决该问题。在NeRF Training阶段,IPDreamer根据文本用ControlNet生成参考图,并将参考图作为Zero 1-to-3的控制条件,用基于Zero 1-to-3的SDS损失生成粗NeRF。在Mesh Training阶段,IPDreamer将NeRF用DMTet转换为3D Mesh,并分别优化Mesh的几何与纹理。1)用参考图的法向图编码作为控制信号,用IPSD (Image Prompt Score

2023-10-14 14:45:11 1153

原创 [23] SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent Text-to-3D

本文探索了3D生成中的view-inconsistency problem(也称为Janus Problem)。为解决该问题,本文提出Aligning Geometric Priors (AGP)。具体来说,本文在3D数据集Objaverse上fine-tune Stable Diffusion,在相机参数作为控制信号情况下,使Stable Diffusion生成具有深度信息的Canonical Coordinate map。Fine-tune得到的AGP,可以加入现有text-to-3D pipeli

2023-10-10 21:09:15 263

原创 [ICCV-23] DeformToon3D: Deformable Neural Radiance Fields for 3D Toonification

3D人脸风格化;3D GAN直接在艺术域(artistic domain)上fine-tuning,效果不错。但存在两个问题:1)会破坏3D GAN原有的隐空间,影响后续的语义编辑;2) 每种新风格需要额外训练,限制了部署。为了解决上述两个问题,本文提出DeformToon3D。本文方法将3D卡通化(toonification)问题,分解为几何与纹理风格化。本文提出StyleField,预测条件控制的3D形变(conditional 3D deformation),实现几何风格化;

2023-10-09 19:37:15 576

原创 [ICCV-23] Paper List - 3D Generation-related

ICCV-23 paper list

2023-10-06 23:49:15 893

原创 [23] Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion

本文中,vocels的数量初始化为N,但这会导致形状较难改变,因此本文提出dynamic scaling。本文使用DVGO,该方法是一中voxel grid-based implicit 3D representations,以3D vocel grid的形式保留密度和颜色信息。其中,y是文本描述。但是现有方法有两个问题:1)直接fine-tune 3D场景,可能到导致失去原3D场景的特征;6. 由于有两个控制条件,最后的噪声由下式求得,其中s_I和s_T是用于控制图片和文本控制强度的超参数。

2023-08-09 13:40:26 580

原创 [CVPR-23-Highlight] Magic3D: High-Resolution Text-to-3D Content Creation

DreamFusion是目前基于文本的3D生成任务的主流方法,但它有两个重要缺陷:1)NeRF收敛速度慢;2)用于监督NeRF训练的图片质量较差,导致生成的3D目标质量较差。对于上述两个问题,本文提出:1)用Instant-NGP替换DreamFusion中的NeRF;2)提出一中两阶段Coarse-to-fine的优化方法,第一步:基于Instant NGP表示低分辨率的3D物体,通过eDiff-I计算L_SDS,更新NeRF;

2023-08-08 21:56:56 772

原创 [TVCG-23] NeRF-Art: Text-Driven Neural Radiance Fields Stylization

传统的CLIP损失如下式,用于拉近渲染图像和目标文本的距离,其中I_tgt是渲染图像,t_tgt是目标文本。更进一步,本文发现式(5)关注全局,而忽略了局部。因此,本文受PatchNCE loss启发,进一步提出了局部损失,其中I_tgt替换为随机crop的局部块。因此,本文提出了relative directional loss,其中t_src是原图的描述文本。为增加风格,本文进一步提出基于对比学习策略的损失。其中,L_per是perceptual loss,基于预训练的VGG层计算。

2023-08-05 00:08:23 263

原创 [NeurIPS-22] Decomposing NeRF for Editing via Feature Field Distillation

对于图片I中任意像素点r,是文本标签l的概率如下式所示,其中f_img是pixel-level图片特征,f_q是queried text feature。如果x'被选中,则x'将代替x计算颜色和密度,如果x和x'同时被选中,并且都不是非零密度,则以alpha为比例,混合两者颜色。因此,可以通过上述步骤求得任意3D点的标签,以及给定任意标签,可以确定对应的3D点。近期,DINO,一种自监督视觉模型,通过计算相邻帧间特征的相似度,解决视频实例分割和跟踪问题。(1)根据相机内外参数,选定射线上的3D点x_i;

2023-08-04 23:16:17 396

原创 [CVPR-22] CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields

每次训练时,从高斯分布中采样形状编码和外观编码,从上半球坐标系中采样相机位置。本文引入了形状变形网络(shape deformation network),输入为坐标x和形状编码z_s,输出是delta_x,维度是3 x 2m。因此,为更彻底的解耦形状编码,本文提出了Conditional Shape Deformation。对任意坐标,可映射为2m维特征,其中k是{0, ..., 2m-1}。具体来说,在NeRF的基础上,引入了形状编码z_s和外观编码z_a,两个编码均采样自高斯分布。

2023-08-04 20:57:37 185

原创 [23] Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

在此基础上,本文提出Control4D,并引入一种阶段性(staged)训练策略,提高了3D编辑的高保真性和连续性,同时让4D场景更快收敛。避免直接用修改图像作为监督信号。

2023-08-03 18:56:20 249

原创 [Tools: Pycharm] Bug合集

1. Debug mode:Pycharm不显示变量值(Unable to display frame variables);在python console中交互不输出值。

2023-07-28 15:34:37 1124

原创 [Tools: Camera Conventions] NeRF中的相机矩阵估计

在NeRF中,一个重要的步骤是确定射线(rays)的初始点和方向。根据射线的初始点和方向,和设定射线深度和采样点数量,可以估计该射线成像的像素值。估计得到的像素值,在训练中用于计算损失更新参数,在测试中用于渲染图像。

2023-07-27 18:51:44 1933

原创 [Tools: tiny-cuda-nn] Linux安装

如果服务器上recursive下载失败,考虑本地下载zip包,上传至服务器并解压。该命令中的recursive,是用于下载tiny-cuda-nn中的两个依赖包:cutlass和fmt。将新版gcc路径添加至~/.bashrc,如果能正确输出gcc版本,则安装成功。最便捷的安装方式,如果安装失败考虑本地编译。该包可以显著提高NeRF训练速度,是。等框架中,必须使用的。

2023-07-25 19:28:48 7542 5

原创 [23] HeadSculpt: Crafting 3D Head Avatars with Text

text-guided 3D generative methods发展迅速,但是现有方法无法创造高保真的3D head avatars,具体来说包含两个问题:1)缺少3D头像先验;2)无法细粒度修改;

2023-07-22 22:26:34 362

原创 [23] TriPlaneNet: An Encoder for EG3D Inversion

任务是3D GAN Inversion,旨在找到给定图像的隐码/Tri-plane。现有方法可分为Optimizaiton-based methods和encoder-based methods。前者旨在通过损失找到最优隐码,后者旨在学习给定图片和隐码的映射关系。前者通常效果更好,但速度较慢。本文通过pSp得到粗tri-plane,通过TriplaneNet生成tri-plane残差,得到最终的精细化tri-plane。

2023-07-20 16:25:47 485

原创 [Tools: ninja] RuntimeError: Ninja is required to load C++ extension

2. Linux可以正常运行,Pycharm运行则继续报错。1. 安装Ninja。

2023-07-12 11:33:36 1315

原创 [综述] Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era

改文章是23年5月27日挂在arxiv上,本文重点关注4.1节Text Guided 3D Avatar Generation、4.4节Text Guided 3D Shape Transformation和第5章Discussion。

2023-07-11 00:13:45 1011

原创 [Tools: ssh隧道] 跳板机连接内网服务器

假设本地是A,内网跳板机是B,内网服务器是C。通常,从A连接C需要两次ssh。但通过以下ssh设置,可以简化连接过程。设置后,在终端键入ssh C,即可登录内网服务器C。3. pycharm打开浏览服务器。Pycharm连接服务器。2. 配置pycharm。

2023-07-10 14:43:13 622

原创 [CVPR‘23] PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 deg

任务:3D human head synthesis现有问题:GANs无法在「in-the-wild」「single-view」的图片情况下,生成360度人像解决方案:1)提出了two-stage self-adaptive image alignment,用于robust 3D GAN training;2)提出了tri-grid neural volume representation,用于解决头后镜像脸的问题;3)提出了foreground-aware tri-discriminator,用于将人

2023-07-10 00:21:29 1363

原创 [ICLR‘22] DAB-DETR: Dynamic Anchor Boxes Are Better Queries for DETR

本文的两个贡献:1)针对DETR,提出一种全新query范式:dynamic anchor boxes;2)深入分析DETR中query的作用。使用4D box 坐标有两个作用,很像soft ROI Pooling:1)明确的位置先验,可以提高query-to-feature相似度,减缓训练收敛慢的问题;2)可以基于box的宽高建模positional attention map;在ResNet50-DC5作为backbone的情况下,训练50-epochs,可以取得45.7% AP。

2023-03-06 17:02:05 538 1

原创 [CVPR‘22] DTLD: Towards Accurate Facial Landmark Detection via Cascaded Transformers

DTLD整体结构为:CNN + Transformer-decoder。主要改进是针对decoder,包含四个部分:Query初始化方法,基于CNN的顶层特征接回归头,使用FC后的特征作为初始化;在Cross-attention前,增加self-attention;引入Deformable Attention,并将初始的reference point替换为CNN特征回归的粗结果;在decoder中,基于deformable attention机制,迭代更新feature map。

2023-03-05 13:23:35 466

原创 [TPAMI‘21] Heatmap Regression via Randomized Rounding

本文探索了热图回归中的量化误差问题;本文提出了一个简单但有效的系统,包含两个部分:在训练时,用一种概率方法,将坐标小数部分编码到GT heatmap中;在测试时,从激活点集合中解码预测坐标本文在人脸关键点数据集(WFLW、300W、COFW和AFLW)和人体位姿检测数据集(MPII和COCO)上实验验证了本文方法的有效性。

2023-02-16 17:21:22 709 2

原创 [CVPR‘23] Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

提出一种3D生成模型:用扩散模型自动生成3D数字虚拟人,并将其表征为neural radiance fields。该任务的主要问题在:生成高质量虚拟人,需要耗费大量时间和内存;本文提出roll-out diffusion network (Rodin),该方法将neural radiance field表征为多个2D feature maps,并将这些特征层展开为一个2D特征平面,进一步在该特征平面中执行3D-aware diffusion。

2023-02-15 23:05:36 1456 6

原创 [CVPR‘22] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

研究如何基于单视角2D图片,通过无监督方法,生成高质量、多视角一致的3D形状;现有3D GAN存在问题:1)计算开销大;2)不具有3D一致性(3D-consistent);本文提出:1):提速、减小计算开销;2):可以借助sota 2D GAN,例如:StyleGAN2。在FFHQ和AFHQ Cats的3D-aware synthesis任务上达到sota。

2023-02-14 23:09:30 4923 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除