06+ER-NeRF论文笔记

Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis

作者来自北京航空航天大学江西研究院等。

论文地址:https://openaccess.thecvf.com/content/ICCV2023/html/Li_Efficient_Region-Aware_Neural_Radiance_Fields_for_High-Fidelity_Talking_Portrait_Synthesis_ICCV_2023_paper.html
代码地址:https://github.com/Fictionarry/ER-NeRF

本文提出了ER-NeRF,一种新的基于条件神经辐射场(NeRF)的说话肖像合成体系结构,可以同时实现快速收敛、实时渲染和最先进的小模型性能。我们的想法是明确地利用空间区域的不平等贡献来指导说话肖像建模。具体来说,为了提高动态头部重建的准确性,引入了一种紧凑而富有表现力的基于nerf的三平面哈希表示,通过三个平面哈希编码器修剪空空间区域。对于语音音频,我们提出了一个区域注意模块,通过注意机制生成区域感知的条件特征。与利用基于mlp的编码器隐式学习跨模态关系的现有方法不同,注意机制在音频特征和空间区域之间建立了明确的联系,以捕获局部运动的先验。此外,引入了一种直接快速的自适应姿态编码方法,通过将头部姿态的复杂变换映射到空间坐标中来优化头躯干分离问题。大量的实验表明,与以往的方法相比,我们的方法可以呈现出更好的高保真度和音频-嘴唇同步的谈话人像视频,细节逼真,效率高。代码可从https://github.com/Fictionarry/ ER-NeRF获得。

应用场景:数字人类、虚拟化身、电影制作和视频会议
参考:

1. 现有技术存在什么问题?

最近,神经辐射场(Neural Radiance Fields, NeRF)[26]被引入到音频驱动的说话人像合成中。它提供了一种新的方法来学习由音频特征直接映射到相应的视觉外观的深度多层感知器。尽管这些传统的基于nerf的方法在合成质量上取得了巨大的成功,但推理速度远不能满足实时性的要求,严重限制了它们的实际应用。
最近几项关于高效神经表示的研究表明,通过用稀疏特征网格替换部分MLP网络,比普通NeRF有了巨大的加速。Instant-NGP[27]引入了用于静态场景建模的哈希编码体积网格,允许使用紧凑的模型进行快速和高质量的渲染。RAD-NeRF[35]首先将该技术应用于说话人像合成,并构建了具有最先进性能的实时框架。然而,该方法需要一个复杂的基于mlp的网格编码器来隐式学习区域音频运动映射,这限制了其收敛性和重建质量。

  • 传统方案:推理速度慢
  • 最新方案(RAD-NeRF):没有解决哈希冲突,需要复杂的Mlp学习音频映射
2. 本文的方案是什么?论文是如何解决这些问题的?创新点在什么地方?

基于之前的研究,我们发现不同的空间区域具有不平等的贡献:(1)在体积渲染,因为只有表面地区为代表的动态,其他空间区域是空的,可以修剪一些高效的削弱技术减少培训困难;(2)由于不同的面部区域与语音音频的关联不同[24],不同的空间区域以其独特的方式与音频信号内在关联,并导致独特的音频驱动局部运动。受这些观察结果的启发,我们明确利用空间区域的不平等贡献来指导说话人像建模,并提出了一种新的高效区域感知说话人像NeRF (ER-NeRF)框架,用于真实高效的说话人像合成,该框架以小模型尺寸实现了高质量的渲染、快速收敛和实时推理。
在RAD-NeRF中,哈希冲突阻碍了渲染质量和收敛性;将3D空间分解为三个正交平面。在分解过程中,所有的区域都被压缩到2D平面上,并剪修相应的特征网络。
为了捕捉音频信号的区域影响,我们进一步探索了所提出的 Tri-Plane Hash 表示的音频特征和位置编码之间的相关性。我们没有连接原始特征并通过大型基于 MLP 的编码器学习视听相关性,而是提出了一个区域注意模块,该模块通过跨模态注意机制调整音频特征以最适合某些空间区域。
此外,在我们的框架中提出了一种简单但有效的自适应姿态编码来解决头部-扭转分离问题。它将复杂的姿态变换映射到空间坐标上,并为躯干-NeRF提供更清晰的位置关系,隐式地学习自己的姿态

创新点总结:

  • 我们引入了一种高效的 Tri-Plane Hash 表示来促进动态头部重建,这也实现了高质量的渲染、实时推理和快速收敛,模型大小紧凑。
  • 我们提出了一种新的区域注意模块来捕获音频条件和空间区域之间的相关性,以实现准确的面部运动建模。
  • 大量实验表明,所提出的 ER-NeRF 以高效率和视觉质量呈现逼真的说话肖像,这在客观评估和人体研究上都优于最先进的方法。
    在这里插入图片描述
三平面的哈希表示

采用少量的采样点数意味着较低的质量,因此无法减少每条射线的采样点数来解决问题。另一个方案是采用3个2D张量取代静态3D空间。从这个角度来看,我们将 3D 空间特征体积分解为三个正交 2D 哈希网格。
给定一个坐标 x = ( x , y , z ) , ∈ R X , Y , Z x = (x,y,z),\in \R^{X,Y,Z} x=(x,y,z),RX,Y,Z,我们通过三个 2D 多分辨率散列编码器分别对其投影坐标进行编码 H A , B : ( a , b ) − > f a , b A , B H^{A,B}:(a,b)->f_{a,b}^{A,B} HA,B:(a,b)>fa,bA,B, f a , b A , B ∈ R L × F f_{a,b}^{A,B} \in \R^{L\times F} fa,bA,BRL×F是点(a,b)在AB平面的投影特征,L为多分辨率中的层数,F为特征的数量。则最终的特征为:
f g = H X , Y ( x , y ) + H X , Z ( x , z ) + H Y , Z ( y , z ) f_g = H^{X,Y}(x,y) + H^{X,Z}(x,z) + H^{Y,Z}(y,z) fg=HX,Yx,y)+HX,Zx,z)+HY,Zy,z)

我们提出的分解显着减少了哈希碰撞,因为现在碰撞只发生在 2D 平面上。假设查询射线几乎垂直于正面平面的常见情况,冲突可以从 O ( R 2 N ) O(R^2N) O(R2N)减少到 O ( R 2 + 2 R N ) O(R^2 + 2RN) O(R2+2RN),其中 R 2 R^2 R2为目标像素数,N为采样数。在RAD-NeRF[35]中,通常设置N = 16和R≈256,理想情况下,我们的表示可以实现与相同模型大小的哈希冲突减少5倍。这种减少使 MLP 解码器更加关注处理音频特征,从而提高收敛性和动态渲染质量。

区域注意力模块

音频等动态条件很少平等地影响整个肖像。因此,学习这些条件如何影响肖像的不同区域对于生成自然面部动作至关重要。许多以前的工作[19,24,42]忽略了特征级别上的这一点,并使用一些昂贵的方法来隐式学习相关性。通过利用存储在哈希编码器中的多分辨率区域信息,我们引入了一种轻量级的区域注意机制来显式地获取动态特征和不同空间区域之间的关系。
区域注意机制涉及外部注意步骤来计算注意力向量和用于重新加权的跨模态通道注意步骤。我们的目标是将动态条件特征与多分辨率几何特征 f x ∈ R N f_x∈\R^N fxRN连接起来,该特征由空间点 x x x的哈希编码器 H H H编码。
为了有效地提高不同级别 f x f_x fx之间的区域信息交换,并通过注意向量的范数进一步区分音频对每个区域的重要性,我们使用两层MLP来捕获空间的全局上下文。因此可以解释为外部注意机制[18]的形式,有两个外部记忆单元 M k M_k Mk M v M_v Mv用于个体水平连接和自我条件查询:
A = R e L U ( F M k T ) V o u t = A M v A = ReLU(FM_k^T) \\ V_{out} = AM_v A=ReLU(FMkT)Vout=AMv
然后,与Hu等人[22]提出的通道注意机制类似,我们将得到的特征t V o u t ∈ R O × 1 V_{out}∈\R^{O×1} VoutRO×1作为区域注意向量 v ∈ R O v∈\R^O vRO,对动态条件特征 q ∈ R O q∈\R^O qRO的各个通道进行重新加权。最后,输出特征向量为: q o u t = v × q q_{out} = v \times q qout=v×q

对于音频信号,给定一个查询坐标 x x x和一个音频特征 a ∈ R A a∈\R^A aRA H 3 ( x ) H^3(x) H3(x)表示通过三平面哈希编码器存储的位置特征。然后将其输入到一个两层MLP中,生成具有相同通道数 a a a的音频的区域注意力向量 v a , x ∈ R A v_{a,x}∈\R^A va,xRA,然后将按通道的注意力通过 v a , x v_{a,x} va,x应用于 a a a:
v a , x = M L P a H 3 ( x ) , a r , x = v a , x ∗ a v_{a,x} = MLP_a{H^3(x)}, \\ a_{r,x} = v_{a,x} * a va,x=MLPaH3(x),ar,x=va,xa

眼神控制。我们还将该机制应用于显式眨眼控制。我们用一个标量来描述眨眼的动作,并把它看作一个一维的向量e。不同的是,眨眼的区域注意向量 v e ∈ R 1 v_e∈\R^1 veR1:
v e , x = M L P e H 3 ( x ) , e r , x = e ∗ s i g m o i d ( v e , x ) v_{e,x} = MLP_e{H^3(x)}, \\ e_{r,x} = e * sigmoid(v_{e,x}) ve,x=MLPeH3(x),er,x=esigmoid(ve,x)

训练细节

自适应姿势编码。为了解决 head-torso 分离问题,我们基于之前的工作 [35, 43]。我们没有直接使用整个图像或姿势矩阵作为条件,而是将头部姿势的复杂变换映射到具有更清晰位置信息的几个关键点的坐标中,并引导torso-NeRF从这些坐标中学习隐含的躯干姿势。
采用两阶段训练方案:

  1. 粗粒度,和原始的NeRF相似,采用MSE来优化预测的图像。
    L c o a r s e = ∑ i ∣ ∣ C i − C i ^ ∣ ∣ 2 2 L_{coarse} = \sum_{i}||C_i-\hat{C_i}||^2_2 Lcoarse=i∣∣CiCi^22
    2.细粒度,仅使用MSE在优化尖锐细节方面存在弱点,使用LPIPS损失对整体进行微调。和RAD-NeRF相似,从整个图像中随机采样一组补丁P,并将LPIPS损失通过权重和MSE损失进行结合:
    L f i n e = ∑ i ∈ P ∣ ∣ C i − C i ^ ∣ ∣ 2 2 + λ L I P I P S ( P , P ) L_{fine} = \sum_{i\in P}||C_i-\hat{C_i}||^2_2+\lambda LIPIPS(P,P) Lfine=iP∣∣CiCi^22+λLIPIPS(P,P)
3.性能效果如何?

在这里插入图片描述
消融实验:
在这里插入图片描述
在这里插入图片描述
三平面哈希表示的消融实验:
MLP基线模型,效果最差,纯三平面表示、网格空间哈希表示,三平面哈希表示效果相似,
区域注意力模块的消融实验:
特征级注意力和通道级注意力,性能相似。
效率:消融实验还展示了使用提出的注意力机制可以在减少训练时间和参数数量的同时,提高图像质量和唇部同步的准确性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值