【2023.7.21】中国SIGGRAPH论文预报告会二

文章探讨了NeRF在纹理合成和实时全身化身建模中的进展,包括使用球谐光照解耦环境光、路径采样和纹理缝合的技术,同时也指出了模型在处理连续纹理和语义理解方面的挑战。另外,提到了一种结合IMU和相机的实时动捕与定位方法,以及一种利用CLIPlatents的姿势扩散模型,用于捕捉语音和手势的多样风格。
摘要由CSDN通过智能技术生成

NeRF相关

3 NeRF texture:Texture:Texture sythesis With Neural radiance fields

1)目标:根据手持相机获得的图像输入,合成纹理

2)挑战:物理世界中的物体存在细弯结构

3)内容:纹理结构获得基础mesh,使用球谐光照解耦环境光,隐式的path采样,纹理缝合,整体渲染。

4)缺陷:

(1)缝合时使用贪心算法,对于栏杆等连续度要求比较高的纹理可能会出现断裂。

(2)模型不了解纹理的语义,比如键盘纹理的字母可能不能对应。

4 AvatarX:Real-time Expressive Full-body avatars

1)背景:面部建模驱动。人体建模。人体建模主要使用查询骨架库,再将骨架变形的方法(已有文章存在以下缺点:缺少精细细节、慢、缺少脸部模型的驱动)

2)内容:

(1)表示:身体部分使用local body field表示方法,并对模型添加learnable fearue patch增加高频细节。手部模型使用模板+sdf。

(2)加速:由于模型生成的NeRF为动态、实时,所以不能直接使用静态NeRF加速方法。本文方法图下:根据参数输入几何重建,渲染点云筛除不可见点,像素渲染点云。渲染后得到25fps,1024的结果。

3)训练:

        step 1: 直接的训练

        step 2: patch level的ptach loss+用于监督模型学习高频信息的loss(如斑点、褶皱)

4)输入数据:脸部8个, 身体16个(相机2k,2000 frames)

5)缺点:多层衣服,不考虑自遮挡(可能会过拟合),忽略手势、宽松衣服动态。由于使用了两个系统进行采集,两个系统效果融合时会出现接缝,接缝在头和身体。但几何不会出现问题。

5 AvatarMAV: Fast 3d Head Avatar Reconstruction Using Motion-aware Neural Voxels

1)提高NeRF的渲染速度的简单思路:把MLP替换为体素TiNeuVox,InstantNGP。但是由于人头视频帧间有语义要求,所以不能直接参考。

2)Motion voxel grid得到delta x,将delta x引入 静态的canonical appearance.....

物理仿真与动画

1 HACK:Learning a Parametric Head and Neck Model for high-fidelity Animation

1)特点:引入解刨学颈椎知识建立更好的人脸参数化模型,相比falme模型是基于2002年采集的ceases数据集,补充了亚洲人训练数据。

2)背景:Mano-piano(骨骼先验,数据集由mii扫描、医学人员标注)-nimble(相比piano模型增加肌肉信息)-sculptor(数据集来源基于整形外科,包含头部ct扫描信息及术后术前外观)

3)内容:

(1)模型组成:Identity space, pose space,个人expression,喉结运动

(2)扩大数据集:采集7节颈椎超声信息、中性表情、微表情、材质。

4)训练:所有参数模型构成的MSE,颈椎的解剖学先验、碰撞检测。

2 EgoLocate: Real-time Motion Capture, Localization, and Mapping with Sparse Body-mounted Sensors

1)背景:相机方法(Slam相机位置重建方法受遮挡时,无法重建);imu(误差累计,没有全局的定位信号)。研究只着重于imu+相机融合系统的位置问题,不考虑优化姿态效果。

2)特点:

        输入:60rps,6个imu,8个相机,实时,不需要提前扫描场景,更不依靠视觉信息.

        输出:人体位置+场景点云。

3)问题:同时实现人体感知+环境感知(slam)的方案很少,要么就简化另一种感知,各存在缺点。在融合方案中,相机相当于人眼,imu相当于肢体。

4)内容:惯性动捕->相机跟踪。优化相机位置、提取关键帧(根据环境3d点、2d点、第一步动捕相机估计位置优化相机位置)->人体位移更新(利用上一秒位置和加速度预测产生先验知识)--mapping and closing 地图点置信度设计,闭环检测(用动捕先验指导误差分配)

3 GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents

1)问题:由于音律存在模糊性、不同场景、不同人style存在多样性,如何挖掘语义,如何衡量语义和动作之间的关系是文章面临的主要困难。文章考虑将转录文本和动作压缩到共有的空间,并压缩时间信息。

2)内容:转录文本+录音输入扩散模型,style(多模态)输入clip。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值