NeRF相关
3 NeRF texture:Texture:Texture sythesis With Neural radiance fields
1)目标:根据手持相机获得的图像输入,合成纹理
2)挑战:物理世界中的物体存在细弯结构
3)内容:纹理结构获得基础mesh,使用球谐光照解耦环境光,隐式的path采样,纹理缝合,整体渲染。
4)缺陷:
(1)缝合时使用贪心算法,对于栏杆等连续度要求比较高的纹理可能会出现断裂。
(2)模型不了解纹理的语义,比如键盘纹理的字母可能不能对应。
4 AvatarX:Real-time Expressive Full-body avatars
1)背景:面部建模驱动。人体建模。人体建模主要使用查询骨架库,再将骨架变形的方法(已有文章存在以下缺点:缺少精细细节、慢、缺少脸部模型的驱动)
2)内容:
(1)表示:身体部分使用local body field表示方法,并对模型添加learnable fearue patch增加高频细节。手部模型使用模板+sdf。
(2)加速:由于模型生成的NeRF为动态、实时,所以不能直接使用静态NeRF加速方法。本文方法图下:根据参数输入几何重建,渲染点云筛除不可见点,像素渲染点云。渲染后得到25fps,1024的结果。
3)训练:
step 1: 直接的训练
step 2: patch level的ptach loss+用于监督模型学习高频信息的loss(如斑点、褶皱)
4)输入数据:脸部8个, 身体16个(相机2k,2000 frames)
5)缺点:多层衣服,不考虑自遮挡(可能会过拟合),忽略手势、宽松衣服动态。由于使用了两个系统进行采集,两个系统效果融合时会出现接缝,接缝在头和身体。但几何不会出现问题。
5 AvatarMAV: Fast 3d Head Avatar Reconstruction Using Motion-aware Neural Voxels
1)提高NeRF的渲染速度的简单思路:把MLP替换为体素TiNeuVox,InstantNGP。但是由于人头视频帧间有语义要求,所以不能直接参考。
2)Motion voxel grid得到delta x,将delta x引入 静态的canonical appearance.....
物理仿真与动画
1 HACK:Learning a Parametric Head and Neck Model for high-fidelity Animation
1)特点:引入解刨学颈椎知识建立更好的人脸参数化模型,相比falme模型是基于2002年采集的ceases数据集,补充了亚洲人训练数据。
2)背景:Mano-piano(骨骼先验,数据集由mii扫描、医学人员标注)-nimble(相比piano模型增加肌肉信息)-sculptor(数据集来源基于整形外科,包含头部ct扫描信息及术后术前外观)
3)内容:
(1)模型组成:Identity space, pose space,个人expression,喉结运动
(2)扩大数据集:采集7节颈椎超声信息、中性表情、微表情、材质。
4)训练:所有参数模型构成的MSE,颈椎的解剖学先验、碰撞检测。
2 EgoLocate: Real-time Motion Capture, Localization, and Mapping with Sparse Body-mounted Sensors
1)背景:相机方法(Slam相机位置重建方法受遮挡时,无法重建);imu(误差累计,没有全局的定位信号)。研究只着重于imu+相机融合系统的位置问题,不考虑优化姿态效果。
2)特点:
输入:60rps,6个imu,8个相机,实时,不需要提前扫描场景,更不依靠视觉信息.
输出:人体位置+场景点云。
3)问题:同时实现人体感知+环境感知(slam)的方案很少,要么就简化另一种感知,各存在缺点。在融合方案中,相机相当于人眼,imu相当于肢体。
4)内容:惯性动捕->相机跟踪。优化相机位置、提取关键帧(根据环境3d点、2d点、第一步动捕相机估计位置优化相机位置)->人体位移更新(利用上一秒位置和加速度预测产生先验知识)--mapping and closing 地图点置信度设计,闭环检测(用动捕先验指导误差分配)
3 GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents
1)问题:由于音律存在模糊性、不同场景、不同人style存在多样性,如何挖掘语义,如何衡量语义和动作之间的关系是文章面临的主要困难。文章考虑将转录文本和动作压缩到共有的空间,并压缩时间信息。
2)内容:转录文本+录音输入扩散模型,style(多模态)输入clip。