Weakly-Supervised Physically Unconstrained Gaze Estimation论文翻译

Weakly-Supervised Physically Unconstrained Gaze Estimation弱监督物理无约束凝视估计

Abstract

物理上不受约束的凝视估计的一个主要挑战是为野外和室外场景获取带有3D凝视注释的训练数据。相比之下,在不受约束的环境中人类互动的视频非常丰富,可以更容易地用框架级别的活动标签进行注释。在这项工作中,我们解决了以前未被探索过的从人类互动视频中进行弱监督凝视估计的问题。我们利用了这样一种观点,即当人们进行“注视对方”的活动时,存在着强烈的与凝视相关的几何约束(LAEO)。为了从LAEO标签中获得可行的3D注视监控,我们提出了一种训练算法以及几个专门为该任务设计的新的损失函数。在来自两个大规模CMU-Panoptic和A VA-LAEO activity数据集的弱监督下,我们显示出(a)半监督凝视估计的准确性和(b)对最先进的物理上不受约束的野外凝视360凝视估计基准的跨域概括方面的显著改进。源码code.

1. Introduction

最近在从单目图像进行远程3D凝视估计的任务中已经取得了很大进展,但是这些方法中的大多数局限于由位于一米之内的摄像机观察的大部分正面对象[46,20]。为了超越正面人脸,最近的一些作品探索了更具挑战性的所谓“物理上不受约束的凝视估计”问题,其中存在更大的相机到对象的距离以及头部姿势和眼睛凝视角度的更大变化[17,44,8]。一个重要的挑战是获取带有3D凝视标签的训练数据,通常在户外更是如此。幸运的是,最近在室内实验室环境中使用专门的多摄像机设置收集了几个具有较大摄像机到受试者距离和头部姿态可变性的3D凝视数据集[43,8,44,28]。相比之下,最近的Gaze360数据集[17]是在室内和室外收集的,距离受试者更远。虽然Gaze360的方法大大推进了这一领域,但它需要昂贵的硬件和许多合作主题,因此很难扩展。

最近,“弱监督”方法已经在各种人类感知任务中得到证明,例如通过多视图约束的身体姿态估计[35,14],通过生物机械约束的手姿态估计[37],以及通过可微分渲染的面部重建[6]。然而,很少有人注意探索对正面凝视估计的弱监督方法[42],而对物理上不受约束的凝视估计则完全没有。目光凝视是人类交流的一种自然而强烈的非语言形式[27]。例如,婴儿从四个月大的时候就能察觉并跟随看护者的目光[38]。因此,涉及眼睛凝视的人类互动视频很常见,并且在互联网上随处可见[10]。因此,我们提出了一个问题:“机器能通过观察人类相互交流的视频来学习估计3D凝视吗?”。

在这项工作中,我们解决了以前未探索过的问题,即从互联网上精选的人类互动视频中弱监督3D凝视学习(图1)。我们的目标是物理无约束凝视估计领域中最具挑战性的问题。具体来说,为了学习3D凝视,我们利用了这样的观点,即当人们执行“看着对方”(LAEO)的普通交互时,存在与凝视相关的强几何约束,即两个人交互的3D凝视向量朝向彼此相反的方向。LAEO活动的视频可以很容易地从互联网上收集,并使用框架级别的标签标注LAEO活动的存在以及执行该活动的人员在2D的位置[26,25]。然而,由于场景中对象的深度模糊性,仅从2D·LAEO注释中估计3D凝视是具有挑战性和不适定的。此外,在学习3D凝视时,天真地对执行LAEO的两个受试者实施相反凝视矢量预测的几何约束本身不足以避免退化解。
图1。弱监督注视估计方法综述。我们使用大量从互联网上收集的人们“互相看着对方”(LAEO)的视频,没有任何明确的3D凝视标签,无论是他们自己还是以半监督的方式,在物理上不受约束的环境中学习3D凝视。图1。弱监督注视估计方法综述。我们使用大量从互联网上收集的人们“互相看着对方”(LAEO)的视频,没有任何明确的3D凝视标签,无论是他们自己还是以半监督的方式,在物理上不受约束的环境中学习3D凝视。

为了解决这些挑战,并从弱LAEO标签中提取可行的3D注视监控,我们提出了一种专门为该任务设计的训练算法。我们在人脸对之间实施了几个场景级几何3D和2D LAEO约束,这极大地有助于准确学习3D凝视信息。在训练过程中,我们还采用了一种自我训练程序,并以一种不确定感知的方式,根据对LAEO人脸的弱噪声估计来计算更强的伪3D凝视标签。最后,我们使用随机凝视不确定性损失和对称性损失来监督学习。我们的算法既可以在纯弱监督方式下仅使用LAEO数据,也可以在半监督方式下使用有限的3D凝视标记数据。

我们评估了我们的方法在大型物理无约束Gaze360 [17]基准上的实际效果。我们进行了各种内部和跨数据集实验,并从两个大规模数据集获得了LAEO标签:(A)具有已知3D场景几何形状的CMU全景[16]和(b)包含互联网视频的野外AVA-LAEO activity数据集[25]。我们表明,我们提出的方法可以成功地从弱LAEO标签学习三维凝视信息。此外,当在半监督环境中与有限的(根据受试者、头部姿势或环境条件的可变性)3D凝视标记数据相结合时,我们的方法可以显著帮助提高准确性和跨域概括。因此,我们的方法不仅减少了为物理无约束凝视估计任务获取数据和标签的负担,而且有助于更好地概括不同/自然环境。

总而言之,我们的主要贡献是:
1.我们提出了一种新的弱监督框架,用于从人们进行“看着对方”活动的野外视频中学习3D凝视。据我们所知,我们是第一个使用人类互动视频来监督3D凝视学习的人。
2.为了有效地从弱LAEO标签中导出3D注视监控,我们引入了几个新颖的训练目标。我们学习预测任意不确定性,使用它来导出强伪3D凝视标签,并进一步提出几何LAEO 3D和2D约束来从LAEO标签学习凝视。
3.我们在Gaze360基准上的实验表明,无论是在数据集内还是跨数据集,LAEO数据都可以通过强3D注视标签有效地扩充数据。

2. Related Work

3D Gaze Estimation 远程凝视估计的最新发展越来越多地受益于具有凝视方向[46,9,36,8]或目标[20,13]标签的大规模数据集。虽然早期的方法研究不同输入面部区域的效果[20,47,8,45],但后来的方法试图将特定领域的见解引入其解决方案。例如,通过将眼睛形状编码到学习过程中[30,31,42,39],或者通过考虑头部方向和凝视方向之间的相关性[48,32,40],或者建模不确定性或随机效应[41,2,17]。其他工作提出了改进终端用户性能的少量适应方法[29,22,12,1,23]。然而,由于可用训练数据集的多样性的限制,大多数这样的方法将它们的评估限制在基于屏幕的设置(主要是正面和对象位于摄像机1米以内)。

最近提出的数据集,如RT-GENE [8]、HUMBI [43]和ETH-xGalection[44],试图允许在更不受物理约束的设置中进行凝视估计,例如从远离摄像机的受试者的侧面进行凝视估计。由于需要复杂的多视图成像设置,这些数据集不可避免地要在受控的实验室条件下收集。Gaze360 [17]是一个显著的例外,它使用全景相机同时从室外和室内的多个参与者那里收集数据。与来自网络的数据相比,或者通过众包参与(如GazeCapture数据集[20])的方式,这种收集方法仍然难以扩展。

就仅使用少量标记数据(无监督预处理)来学习广义凝视估计器而言,Yu等人[42]是唯一的现有技术。然而,他们的方法主要限于正面,并且假设来自给定参与者的样本对之间的头部几乎没有移动——这种假设在约束较少的情况下不成立。

Gaze Following and Social Interaction Labels 给定一个人的图像,注视跟随涉及到对人的注视目标位置的预测。Recasens等人[33]最初探索了用深度神经网络执行这项任务,并在[34]中扩展到时序数据和多个摄像机视图。Chong等人[3]通过联合训练使用EYEDIAP数据集预测3D注视方向[9],并通过明确预测目标是否在帧内,进一步提高了静态注视跟随任务的性能。这项工作在[4]中也扩展到视频数据。就像物理上不受约束的凝视估计任务一样,凝视跟踪也涉及到在不同的环境中从更远的距离观察所有头部姿势的人类受试者。然而,注视跟随数据集注释复杂,并且由于缺乏场景和对象几何信息,它们不适合于学习预测3D注视的任务。

或者,基于凝视的交互的弱注释以社交交互标签的形式存在。其中一个条件是常见的“注视对方”条件,也称为LAEO [26],在这种条件下,一个二进制标签被分配给相互注视的人的头部对。与相互注意或视觉注意力焦点相比,这是一个更容易注释的量。最近出版的AVA-LAEO数据集[25]是AVA数据集[10]的扩展,并证明了为现有视频获取这种注释的容易性。据我们所知,我们是第一个证明像LAEO这样的社交标签可以用于弱监督凝视估计的人。此外,添加基于LAEO的约束和目标持续提高了跨数据集和半监督凝视估计的性能,进一步验证了我们方法的真实效果。

3. Weakly-supervised Gaze Learning

3.1. Problem Definition and Motivation

我们的目标是从人类“对视”的野外视频中,用弱监督来监督3D凝视学习。这样的场景包含LAEO约束,即两个对象的3D凝视沿着同一条线定向,但是方向彼此相反。我们专门针对物理上不受约束的凝视估计这一具有挑战性的任务,在这种情况下,主体到摄像机的距离很大,头部姿势和环境也有变化。我们假设我们有大量包含LAEO活动的视频可供我们使用,例如,可以通过适当的文本查询搜索网络来获取这些视频。我们进一步假设,通过任何方式,包含LAEO活动的较长视频序列的特定帧已经被定位,并且LAEO条件下的一对面部的2D边界框也是可用的。我们将这些标签统称为“LAEO标签”。

获取LAEO数据是一种相对快速且经济高效的方法,可以收集大量不同的训练数据。然而,带有LAEO标签的网络视频无法提供精确的3D凝视监控。这是因为,对于这样的视频,场景的精确几何形状和摄像机的内在参数都不是先验已知的。此外,要求两个人的预测凝视估计彼此相反的简单LAEO约束对于学习凝视是不够的。它很快导致退化的解决方案。

为了应对这些挑战,我们设计了一个新的弱监督学习框架,用于从LAEO数据中进行三维凝视估计。具体来说,我们提出了许多新颖的几何场景级LAEO损失,包括一个3D和一个2D损失,应用于LAEO的人脸对。对于单个面部输入,我们还使用随机凝视损失[18],它计算凝视不确定性,以及自我监督的对称性损失。我们还提出了一个不确定性感知的自我训练程序,从显示LAEO的人脸对生成3D凝视伪地面真实标签。我们的训练框架在两种配置下运行:(a)纯弱监督的,只有LAEO数据;(b)半监督的,其中LAEO数据与3D凝视标记的数据相结合。

3.2. Solution Overview

我们从LAEO数据进行弱监督三维凝视学习的总体框架如图2所示。我们希望通过提供展示LAEO的成对人的视频序列来训练具有权重θ的函数F(I,θ)以估计注视。受[17]的启发,我们的注视估计网络F(I,θ)由ResNet-18主干、两个双向LSTM层和全连接层组成,该网络估计注视值ˆg = {ˆgθ, ˆgφ}以及对应于7个连续输入帧序列中的中心图像的不确定性值ˆσ。这里,ˆgθ和ˆgφ分别表示凝视俯仰角和偏航角的估计值。除了我们网络的时间版本之外,我们还探索了一种静态变体,它将单个图像作为输入,绕过LSTM层,将主干CNN的输出直接连接到全连接层。
图2图2。我们的弱监督方法的概述,从“看着对方”的人类活动视频学习3D凝视。从左到右,我们显示(a)我们的凝视估计网络的输入,即,LAEO的成对头部作物及其场景图像用于弱监督训练,可选地,单个头部作物具有用于半监督训练的凝视标签(如果可用);(b)我们的注视估计网络,它预测注视gˆ及其不确定性σˆ;©用于培训的各种弱监督和全监督损失;(d)从网络上获取的野外LAEO视频的场景几何估计,包括用于计算LAEO损失的LAEO受试者对的2D和独眼3D位置;以及(e)我们提议的LAEO损失的细节,包括几何2D LAEO损失(L2D geom)、几何3D LAEO损失(L3D geom)和伪视线损失(Lpseudo G)。

对于LAEO数据,我们网络的输入是一对大小为224×224×3的头茬,每个头茬包含展示LAEO和原始场景图像的两个面之一。在使用LAEO数据进行训练期间,没有3D凝视标签可用。如果包含显式3D凝视标签的数据可用于半监督训练,我们从场景图像中提取单个头部作物,并将它们与它们已知的地面真实3D凝视标签一起输入网络进行训练。

3.3. Loss Functions

我们使用了几个端到端可微的几何损失函数,这些函数是从LAEO约束导出的,用于有监督的三维凝视学习。其中包括两个场景级几何2D和3D LAEO损失。我们首先描述我们的场景几何估计技术和野外视频的3D凝视原点确定技术,然后描述我们的几何LAEO损失。然后,我们描述了我们的不确定性感知3D凝视伪标记过程,随后是两个额外的损失——应用于单个面部输入的随机凝视和对称性损失。

Scene Geometry Estimation场景几何估计 几何LAEO损失函数只能在两个对象共有的坐标系中计算,即摄像机坐标系。对于互联网视频,我们无法可靠地恢复相机参数或对象的3D姿态。所以我们取而代之的是它们的近似值。我们将相机焦距参数f近似为以像素为单位的较大图像尺寸的大小。假设主点在图像的中心。我们使用AlphaPose[7]检测受试者的2D面部标志,并将他们左眼和右眼像素位置的中点称为他们的“2D独眼”P2D= (x,y)。我们假设它是2D像平面上一个物体凝视的起始点。为了找到它的3D对应物,即3D独眼P3D,我们还估计了每个对象的深度z,并将P2D反投影到3D as (zx/f,zy/f,z)。这个过程确保P2D和P3D位于从摄像机中心开始的同一条投影线上。

为了恢复每个对象的深度z,我们首先使用DensePose [11]估计它们的2D-3D对应关系。我们使用预测的2D面部关键点[7]和平均性别中性的3D SMPL头部模型[24]来计算3D变换,以使用PnP [21]将3D头部模型拟合到特定受试者。这允许在相机坐标系中估计3D头部模型的位置和方向,这又为我们提供了每个对象的以米为单位的深度估计(见图2)。具体地,我们利用拟合的3D头部模型的左眼和右眼的中点的深度z值来恢复每个对象的深度。最终结果是在LAEO下两个受试者共享3D坐标系(见图2)。秒。补充资料的第3节我们进一步讨论了用于计算场景几何形状的各种近似对从LAEO数据导出的3D凝视估计的可靠性的影响。

Geometric 2D LAEO Loss 几何2D·LAEO损失 对于LAEO的两个受试者A和B来说,他们预测的3D凝视向量在场景图像平面上的投影应该沿着连接他们的2D巨眼P2DA和P2DB的线(见图2)。这种直觉构成了我们几何2D LAEO损失L2D几何的基础。为了计算这种损失,我们通过F(I,θ)向前传播他们的头部作物图像来估计LAEO受试者A的凝视角Ga。然后,我们将其转换为3D单位凝视向量g3D,该向量源自对象A在相机坐标系中的3D独眼P3D A。接下来,我们将观察到的场景图像作为2D注视向量g2D A向前投影g3D(见图2)。为了计算L2D geom,我们计算像平面中两个2D单位向量之间的角余弦距离:一个沿着g2D,另一个沿着连接P2D A和P2D B的线。我们对受试者B重复这个过程,并对两个损失进行平均,以获得最终的损失L2D geom。(公式翻译的稀烂·_·)

然而,请注意,L2D geomon本身不能完全解决从互联网获得的视频中存在的深度模糊,因此不足以学习3D凝视(见表1),但当与其他LAEO损失结合时,它有助于提高整体凝视估计精度(见补充部分第4节)。因此,我们还提出了一种几何3D LAEO损失,这有助于解决深度模糊,并有助于更准确地学习3D凝视。接下来我们描述一下。
表一
表1 .一项消融研究,以评估我们的个别弱监督LAEO损失。总是使用对称损失。当在Gaze360的测试集上评估时,所有报告的数字都是使用我们的凝视估计模型的时间和静态变量的预测,以凝视角度误差为单位进行测量。越低越好。

Geometric 3D LAEO Loss 几何3D LAEO损失,L3D几何,明确提供3D方向信息来监督凝视学习。我们将其公式化,以强制来自LAEO受试者B的独眼P3D B的估计3D注视向量必须与被观察受试者A的3D独眼P3D A相交(见图2)。为了实现这一点,我们首先估计被观察对象A的3D面部平面π,并将其放置在垂直于其方向向量的3D全景眼睛位置P3D A。我们将航向矢量定义为连接受试者最外侧3D耳点的3D中点和从拟合的SMPL头部模型获得的3D鼻尖的直线。然后由||P3DA - P3DA||给出对象B的几何3D LAEO约束,其中P3D A是对象A的3D巨眼位置,而P3D A是对象B的3D注视向量g3D B与对象A的面部平面πA的交点(见图2)。这里|| ||表示欧氏距离。我们对受试者A重复这一过程,并对两个受试者计算的损失进行平均,以获得最终损失L3Dgeom。从经验上来看,我们发现L3geom的公式比基于余弦角度的版本表现更好(参见补充部分的第3节)。

Pseudo Gaze LAEO Loss LAEO活动还为我们提供了自我监督约束,即LAEO的两个人A和B的地面真实3D注视向量沿着相同的3D线定向,但方向彼此相反,即g3DA = -g3DB。因此,我们在自我训练过程中利用它,并在训练时连续计算一对LAEO受试者的注视伪地面真实标签。我们观察到,LAEO活动经常导致一个受试者的清晰前视图,而另一个受试者被转向别处(参见图1和图2中的例子)。此外,凝视估计误差通常随着诸如眼睛等特征不太可见的极端头部姿态而增加(关于凝视误差对凝视偏转的曲线图,参见补充中的图2)。例如,在从对象后面看的极端情况下,面部特征变得完全被遮挡。

我们发现由我们的网络估计的不确定性度量与凝视误差有很好的相关性(斯皮曼等级相关系数值为0.46)。因此,为了推导出LAEO一对人脸的凝视伪背景真相,我们使用不确定性度量来衡量LAEO一对人脸的两个凝视估计中更可靠(不太不确定)的一个。具体地,假设{ g3D A,ˇA }和{ g3D B,ˇB }分别是LAEO、IA和IB的一对输入人脸作物的预测3D注视向量及其角度不确定性值(在公共3D坐标系中)。我们将人脸A和人脸B的伪3D注视地面真实标签g3D伪计算为它们估计的3D注视向量的加权组合,如下所示:
公式1其中,我们根据凝视网络预测的角度不确定度值σA和σB计算wA和wB,WA =σB/σA+σB和WB =σA/σA+σB。我们进一步计算每个LAEO受试者的预测注视向量g3D和它们各自的伪地面真值g3D伪和g3D伪之间的余弦距离。我们对两个受试者计算的余弦距离进行平均,以获得最终的Lpseudo G损失。我们发现LpseudoG的这种形式优于它的其他变体(参见补充资料中的B.2节)。(公式请看原文【裂开】)

Aleatoric Gaze Loss 任意凝视损失 我们使用随机损失函数LG来监控对单个面部输入的凝视估计,该估计回归预测的凝视值及其不确定性。如前所述,这种凝视的不确定性有助于为LAEO的成对人脸导出伪背景真相。任意不确定性将估计凝视角的分布建模为参数拉普拉斯函数,因此我们的凝视网络F(I,θ)预测它们的估计平均值{gθ,gφ}和绝对偏差σ值。我们通过最小化观测地面真实凝视值{gθ,gφ}相对于该预测拉普拉斯分布的负对数似然来监控网络,如下所示:

公式2在实践中,我们预测网络绝对偏差l o g(σ)的对数。该公式已被证明在数值上是稳定的,并且避免了被零除的可能性[18]。请注意,以前在[17]中,作者同样使用弹球损失来估计凝视预测的不确定性。我们发现,与弹球损失相比,随机损失提高了凝视估计的基线精度(参见补充资料中的B.1节)。

Symmetry Loss 对称损失 我们还利用凝视估计任务固有的左右对称性来实施另一个自我监督的凝视对称性损失Lsym。具体而言,我们将输入面部图像I的凝视角估计为g = {gθ,gφ},反转其预测凝视偏航角的符号以产生改变的预测g* = {gθ,-gφ},并且使用该改变的凝视估计作为基础事实来监控输入面部图像的水平翻转(镜像)版本I*的预测凝视,使用任意损失,如下所示:在这里插入图片描述我们对水平翻转的图像重复这个过程,并对两个合成损失进行平均。请注意,这里假设凝视角度在[17]中描述的标准化眼睛坐标系中,其z轴穿过每个对象的3D全景眼睛位置P3D。这种损失防止了网络过度拟合,同时提高了视线估计的准确性(参见补充资料中的B.1节)。

3.4. Training

我们采用两种训练范式:纯弱监督训练(仅使用LAEO数据)或半监督训练(LAEO数据增加包含明确3D注视标签的数据)。在这两种情况下,我们使用ImageNet [5]预先训练的权重初始化模型的ResNet-18主干。我们使用正态分布初始化LSTM模块和光纤通道权重。对于半监督训练,我们首先训练我们的模型与仅包含显式3D注视标签的图像收敛,然后添加带有LAEO标签的弱监督图像,并继续联合训练以收敛。在初始化过程中,我们将批处理规范化层的参数固定为在ImageNet预先训练的权重中找到的参数。我们使用以下目标函数优化模型:

在这里插入图片描述这里,α和β是标量权重,它们分别缓慢增加对称性和LAEO损耗的贡献。斜坡运算公式为(i/T 向下取整),其中I是更新模型的最小迭代步骤,而T是阈值。我们把tα设为3000,Tβ设为2400。在不涉及任何注视监督的实验中,β总是固定在1,不包括LG。我们使用80帧/序列的批量来训练我们的静态/时间注视估计网络。我们使用10-4的固定学习率和自动数据采集优化器[19]。

4. Experiments

在这里,我们评估了我们的方法在完全弱监督或半监督设置下对物理无约束凝视估计任务的真实世界性能[17]。我们在数据集内部和数据集之间进行大量实验。除了凝视估计之外,在补充的第一节中,我们还展示了在半监督环境中,将LAEO标签添加到野生视觉目标注意力预测任务[4]中的效用。

LAEO Datasets 我们使用了两个LAEO数据集——CMU全景[16]和AVA [10,25]。CMU全景摄影[15]是用安装在一个大型室内穹顶上的多摄像机系统采集的,受试者在其中进行各种活动。它不包含LAEO注释,但包含受试者的3D身体关节位置和相机校准信息,我们在实验中直接使用这些信息。从包含讨价还价活动的视频序列中,我们通过半自动程序提取存在LAEO活动的片段(在补充部分的第1节中描述)。这导致从485个独特的对象中提取出超过800k对人脸。在我们的实验中,我们只利用平行于地面的摄像机拍摄的图像。

为了从野外互联网视频中获取LAEO数据,我们利用Marin-Jimenez等人(称为“AVA-LAEO”)提供的大规模AVA人类活动数据集[10]和LAEO注释[25]。它由多个视频序列的选定帧中LAEO下的带注释的头部边界框对组成,从而产生各种各样的面部、背景和照明条件。与CMU全景不同,AVA-LAEO不提供精确的摄像机参数或3D人体姿态。我们使用DensePose [11]和AlphaPose [7]估计受试者的3D姿势(在补充部分的第3.3节和第D.2节中描述)。总的来说,这个数据集包含了LAEO 13,787对人脸序列。

Gaze Datasets 我们验证了弱监督方法在大规模物理无约束野外Gaze360 [17]数据集上的有效性。它包含明确的3D凝视标签和主体头部姿势和凝视角度的大变化,以及照明条件和背景。它的图像是在室内和室外环境中使用瓢虫多摄像头系统获取的。它包含来自365名受试者的127个训练序列。对于半监督训练,我们额外使用了两个大规模的凝视数据集,具有已知的3D凝视基本事实——GazeCapture[20]和ETH-XGaze[44]。GazeCapture包含1474名受试者在不受约束的环境条件下获得的近2M正面人脸图像。另一方面,ETH-XGaze是在室内获得的,在标准的绿色背景上有控制的照明,带有多视图摄像机系统。它包含80个主题的756K帧。

所有这些数据集及其示例人脸图像的凝视分布图如图3所示。对于GazeCapture和ETH-XGaze,我们使用[47]中描述的标准化过程来创建标准化的人脸裁剪。对于所有其他数据集,我们使用[17]中描述的过程来创建标准化的头部作物。对于所有评估,我们报告估计的和地面真实单位注视向量之间的角度误差(以度为单位),在相应的测试数据集中取平均值。
图三图3.顶部是Gaze360 [17],AVA-LAEO [25,10],CMU Panoptic[15],GazeCapture[20]和ETH-
XGaze 数据集[44]的凝视方向分布。请注意,这里CMU全景和AVA-LAEO的近似凝视是通过连接LAEO一对受试者的3D全景眼睛位置来计算的。下面这一列是单个数据集的示例面裁剪或头部裁剪(如果可用)。

4.1. Ablation Study

为了验证我们个人损失的贡献,我们进行了一项纯粹弱监督的跨数据集消融研究。我们使用CMU全景或视听ALAEO数据集训练我们的方法,并在Gaze360数据集的测试分区上评估性能。表1强调了在这个交叉数据集设置中各种弱监督LAEO损失的影响。所有报告的值都是默认使用对称损失的情况。我们训练我们的凝视估计模型的两种配置——(a)时间版本,它接受7帧作为输入,和(b)静态变体,它从单个输入帧预测凝视。

我们观察到,在单个弱监督损失中,Lpseudo G和L2D geomon各自或一起导致退化解。这并不奇怪,因为它突出了深度模糊的影响(见第3.3节)。强有力的监督可以通过明确地限制估计的凝视与3D目标相交来提供,在我们的情况下,在LAEO条件下被观察对象的头部。这可以从L3D的地理状况比其退化的同类有显著改善这一事实中看出。我们观察到,最佳性能是通过利用L3D几何、L2D几何和Lpseudo G损失的组合来实现的,特别是在场景几何未知的真实世界AVA-LAEO数据集上。我们还发现,消除对称损失会使我们的最佳(时间)模型的整体凝视误差从CMU全景模型的25.9增加到27.9,从AVA-LAEO模型的26.3增加到27.9(未在表1中列出)。我们提供了额外的消融研究来探索任意和对称损失的影响;其他变体的LpseudoG和L3D geom损失;和补充的L2Dgeomin Sec B的效用。

4.2. Semi-supervised Evaluation

尽管成功地学习了估计注视,我们的纯弱监督模型(在AVA-LAEO数据集上训练并在Gaze360数据集上测试)的性能落后于Gaze360训练集上的完全监督模型[17],如表2所示(时间模型为26.3 vs 13.2)。造成这种差异的一个原因是源自LAEO数据的凝视标签中存在噪声(如补充资料第3节所述),另一个原因是AVA-LAEO数据集和凝视360数据集之间存在领域差距。后者从图3所示的凝视分布图中显而易见。LAEO数据倾向于从更大的侧面角度观察个体(见图1和图2),并且包含较少的正面面部数据。它还包含头部pitch的较少差异(上/下旋转)。
表二表2 .我们的时间模型在Gaze360数据集的测试分区上的性能评估,该测试分区具有各种不同的训练数据集,从包含完全注视监控的数据集(Gaze360、GazeCapture、ETH-xGazel)、仅包含弱LAEO监控的数据集(AVA-LAEO或CMU全景数据集)或它们的组合。所有报告的值都是凝视角度误差,以度为单位(越低越好),或者(a)仅正面作物,或者(Gaze360测试集的所有头部作物。请注意,在GazeCapture或ETH-XGaze中添加AVA-LAEO显著提高了它们在Gaze360上的泛化性能。

因此,在这个实验中,我们探索了一个半监督的环境,在这个环境中,我们评估弱监督的LAEO数据是否可以成功地增加有限的凝视标记数据,并提高其对野外物理上不受约束的凝视估计任务的泛化能力。我们进行跨数据集和数据集内实验。对于跨数据集实验,我们使用Gaze360之外的几个现有数据集来训练我们的模型,并在Gaze360的测试分区上进行测试。对于数据集内实验,我们使用LAEO数据在Gaze360训练分区的不同子集上进行训练,并评估Gaze360测试集的性能。[44]只评估Gaze360正面的性能,而[44]不同,我们评估Gaze360测试集中(a)正面和(b)所有面的性能(包括大轮廓面)。

Cross-dataset 在表2中,我们比较了GazeCapture和ETH-xGazel数据集在Gaze360上的泛化性能,有和没有A-V-A-LAEO的弱监督。这两个有监督的凝视数据集,虽然很大,但在某些方面限制了野外物理无约束凝视估计的任务。GazeCapture数据集包含室内和室外采集的图像,但主要是凝视角度分布较窄的正面(图3)。另一方面,ETH-XGaze数据集具有来自80个受试者的凝视角的广泛分布(图3),但仅在室内捕捉。

表2突出显示,在包括来自AVA-LAEO的弱注视监督时,GazeCapture和ETH-xGazet在Gaze360上对正面和所有面部的概括性能都得到改善。对于正面人脸,AVA-LAEO的加入导致GazeCapture的改进为7.4,ETH-xGalect的改进为3.6。然而,在所有的头季作物上,这种改善甚至更明显GazeCapture为31.0,ETH-XGase为27.6。图3显示,反车辆α-LAEO数据集通过弱凝视标签扩展其潜在分布,补充了凝视捕获数据集和ETH-x凝眸数据集(更多细节见补充资料第三节)。在表2中,我们还显示了与CMU全景和AVA-LAEO联合训练的跨数据集性能,仅使用它们的弱注视标签。我们发现野外的AVA-LAEO数据也略微提高了仅在室内的CMU全景数据在Gaze360上的推广性能。最后,表2显示,我们的模型在所有基准上也优于先前报告的最先进的性能[17,44]。

Within-dataset 如[20]所示,从大量受试者获得的训练数据提高了注视估计器的泛化能力。然而,招聘更多的科目需要额外的成本和时间。在图4中,我们评估了来自Gaze360训练集的逐渐增多的受试者的训练表现,没有(在图4中标记为“Gaze360”)和(在图4中标记为“+A V A”)A V A-LAEO。我们在培训中使用特定主题的所有可用视频。我们评估我们的时间和静态模型。对于这种域内半监督设置,我们发现,对来自Gaze360的少量受试者以及来自AVA-LAEO的弱监督的训练,提供了与使用来自Gaze360的大量受试者相同的性能。

图4
图4。凝视360测试集上的凝视误差(以度为单位)在用A-V-A-LAEO增加缩减的凝视360训练集(受试者较少)时。我们沿着横轴改变Gaze360训练科目的数量。阴影区域对应于平均度量的标准误差,该平均度量通过每次挑选不同的随机受试者子集在每次实验的5次重复中进行评估。

5. Conclusion

在这项工作中,我们提出了一个弱监督的3D凝视学习范式的第一次探索,从人们互相看着对方的图像/视频(LAEO)。由于易于从互联网视频中获取LAEO注释,这种方法的可伸缩性非常低。为了促进3D凝视的学习,我们提出了三个训练目标,这些目标利用了LAEO活动固有的潜在几何学。通过许多实验,我们证明了我们的方法在用LAEO下的人的无约束图像来扩充受限于凝视分布、受试者或环境条件的凝视数据集方面是成功的,导致了在野外的物理无约束凝视估计的改进。

Appendix

在这个补充文件中,我们展示了额外的实验结果,并提供了更多的实现细节。具体来说,我们证明了在凝视估计之外的一个额外的不受物理约束的凝视相关任务中使用来自LAEO数据的弱标签的优势。为此,我们将来自AVA-LAEO的视线估计管道整合到当前最先进的视觉目标估计网络[4] (此处称为“VATnet”)中,并评估其性能。接下来,对于物理上不受约束的凝视估计任务,我们提供了额外的消融实验(除了主论文第4.1节中的实验),包括任意和对称损失;对于伪凝视和几何3D LAEO损失的各种公式;以及几何2D·LAEO损失的效用。我们展示了跨数据集实验中使用的各种训练数据集的更多性能细节(在主论文的第4.2节中)。最后,我们提供了预处理CMU全景和阿瓦阿LAEO数据集的更多细节,并分析了从真实世界LAEO数据中提取的3D凝视标签的可靠性。

A. Weakly-Supervised Visual Target Estimation 弱监督视觉目标估计

Chong等人[4]提出了一种新的时空结构(VATnet),该结构预测给定视频帧内对象的注视目标。在这个实验中,我们探索了基于LAEO的弱监督三维凝视是否也有助于估计更准确的视觉目标。我们使用LAEO 3D凝视估计作为辅助任务,同时在半监督设置中训练用于视觉目标估计的网络。这提供了来自嘈杂的野生LAEO数据集的额外弱凝视注释。

Method 该系统由四个模块组成:头部调节分支,其从输入的头部图像生成与凝视相关的特征;主场景分支,其基于输入场景图像的显著性生成场景相关特征图;循环注意力预测模块,其跨连续视频帧融合凝视和场景相关特征;最后,热图调节分支,其产生视觉目标预测热图(见图5)。V A Tnet的头部调节分支是一个ResNet-50模块,由在EYEDIAP数据集上训练的凝视估计网络的权重初始化[9]。利用这种凝视估计器,Chong等人[4]在一个名为VisualAttentionTarget的新数据集上展示了最新的结果,该数据集由图像平面上带注释的凝视目标位置组成。在我们的实验中,我们用原始的完全监督的视听测试数据集的训练集和视听ALAEO数据集来联合训练这个视听测试架构。为了做到这一点,我们修改了视觉-听觉-听觉网络体系结构,并在头部调节分支的输出端添加了两个完全连接的层,并训练它另外预测从视觉-听觉-LAEO数据集导出的弱3D注视向量(见图5)。我们仅使用LAEO损失LSY M+L2D geom+L3D geom+Lpsudo G对来自LAEO的样本进行训练。
图5图5。VATnet架构的简单修改[4]。两个完全连接的层作为辅助任务,从原始VATnet架构的头部调节分支预测3D凝视。然后,AVA-LAEO数据集的预测注视向量的LAEO损失(见主论文第3.3节)用于微调头部调节分支的最后一层。从微调头部调节分支提取的面部特征然后进行到视觉注意目标预测任务的VATnet。关于其网络架构的完整描述,请参考Chong等人的[4]。

Data Preparation VATnet需要三种输入模式。首先,它需要一个完整的场景图像,每个带注释的主题都有已知的头部边界框位置。接下来,它需要所述对象在图像平面上的2D像素凝视目标位置,以及最后,指示目标是在帧内还是帧外的进出标签。对于这个任务,为了使用LAEO数据,我们输入了以LAEO标注为中心的相同的7帧序列。我们将受试者B的2D独眼P2D(见主论文第3.3节中题为“场景几何估计”的小节)作为受试者A的目标,反之亦然。AVA-LAEO数据的性质确保所有目标位置都在一个图像帧内,我们假设这是默认的进出地面真实状态。我们不对AVA-LAEO数据进行预处理或扩充,而是直接用这两个数据集对Chong等人的原始VATnet实现进行最小化的修改。

Results 根据Chong等人[4],我们评估了正确目标位置预测的曲线下面积(在图像平面上预先指定的距离阈值内)、场景中预测目标位置和地面真实目标位置之间的L2距离以及帧外预测的平均精度。我们在增值税测试数据集上报告分数,在2-30个培训时期平均,包括作者的原始方法[4]和我们提议的修改。表3显示了使用AVA-LAEO数据集和增值税数据集进行联合培训的好处。我们注意到用于视觉目标预测的AUC和L2距离度量的改进。这些令人鼓舞的结果表明,来自嘈杂地标记的野外LAEO数据的弱监督也可能有助于其他与凝视相关的任务,例如,除了3D凝视估计之外的视觉注意目标预测。我们还注意到帧外应用程序的减少,这并不奇怪,因为AVA-LAEO数据集中给定主题的所有目标位置都在图像边界内,因此它只为一个(即帧内)类别提供标签。
在这里插入图片描述表3 .通过使用主论文表1中描述的LAEO损失函数的最佳配置,增加来自视听LAEO数据集的弱监督,对视听特基线[4]进行改进。

B. Additional Ablation Studies

对于物理上不受约束的凝视估计任务,除了主论文第4.1节中的实验之外,我们还提供了额外的消融实验。

B.1. Aleatoric and Symmetry Losses 任意和对称损失

在标准化的眼睛坐标系统[17]中,z轴穿过每个面部的3D全景眼睛中心,将注视偏航预测约束为面部及其对称翻转版本的相等和相反,这是一种直观的约束,可以在训练期间使用。我们的实验表明,使用这种对称性约束和任意凝视损失提高了[17]在作者最初的完全监督的基于ResNet-18的凝视估计器(时间和静态)的两种变体上的基线性能,该估计器使用弹球凝视损失。表4显示了在Gaze360上的数据集内完全监督实验中,向弹球(来自[17])和任意(我们的)损失函数添加对称约束的效果的详细比较。在这里,我们用Gaze360的整个训练集(带有凝视标签)训练我们的凝视网络,并在Gaze360的测试集上对其进行评估。请注意,对称约束改善了弹球和任意损耗的性能。

表四表4 .采用任意凝视损失(在主论文第3.3节“任意凝视损失”中描述)和引入对称约束的效果(在主论文第3.3节“对称损失”中描述)的性能增益总结。对于Gaze360上的完全监督数据集内实验,所有报告的值都是角度凝视误差(以度为单位,越低越好)。

我们还观察到,对于这个数据集内实验,任意损耗始终优于弹球损耗,并且任意损耗和对称损耗的组合导致最佳的整体性能(表4)。除此之外,我们观察到,在跨领域的纯弱监督实验环境中,随机损失也优于弹球损失。通过用弹球损失(来自[17])代替随机损失,我们的最佳时间网络(用所有LAEO损失训练,对应于主论文表1的最后一行)不太有效地推广到Gaze360。AVA-LAEO的凝视误差从26.3增加到28.7,CMU全景望远镜的凝视误差从25.9增加到26.1。

B.2. Variants of Lpseudo loss

LAEO活动为我们提供了一个约束条件,即在一个共享的相机坐标系中,来自LAEO的受试者和受试者的预测3D凝视必须相等且相反。有多种方法可以实现这种约束。作为一种消融,除了在主论文第3.3节“伪凝视LAEO损失”中描述的公式之外,我们还探索了这种LAEO约束的另外两种公式:a)天真的LAEO实施和b)使用LAEO一对人脸的最自信凝视预测作为伪地面真实凝视方向。在任一实验中,我们用这些损失中的一个来替换我们最好的(时间上的)纯弱监督交叉数据集配置中的Lpsudo G损失,该配置是用所有LAEO损失Lsym+Lpsudo G+L2D geom+L3D geom(对应于主论文表1中的最后一行)来训练的。

Naive LAEO Enforcement 在这里,我们天真地通过最小化g3DA和g3DB之间的合成角余弦距离来强制预测矢量g3DA和g3DB相等和相反。在这种约束下,两个面的预测都可以由网络修改。为了实现这一点,我们的凝视估计网络可以改善它对LAEO对中的困难面部的预测(见图6,其示出了凝视预测误差随着极端凝视角度而增加),或者它可以恶化它对更清晰正面面部的预测以满足这个天真的LAEO目标。我们的实验表明,在整个Gaze360测试集(CMU全景:25.9→ 28.2和AVA-LAEO: 26.3→ 26.9)上,LAEO损失的这个原始变量与主论文第3.3节中描述的变量相比,跨数据集性能有所降低。
图6图6。Gaze360试验误差(单位为度),作为Gaze360上完全监督的数据集内试验的凝视偏航的函数。请注意,视线误差会随着人脸远离摄像机而增加。

Confident Gaze Prediction 在本实验中,我们将LAEO对的两个预测凝视向量中更有把握的一个视为伪地面真实g3D伪凝视标签,而不是主论文第3.3节中使用的它们的加权平均值。即g3Dpseudo = g3D A如果WA≥ WB(从方程。我们的实验显示,与主论文第3.3节(CMU全景:25.9→ 27.24和AVA-LAEO: 26.3→ 27.8)中使用的LAEO伪地面真实标签的变体相比,交叉数据集的性能也有所降低。

B.3. Variant of L3Dgeom loss

我们还比较了我们在主论文第3.3节中使用的L3D几何损失公式与传统的3D角度余弦损失公式的性能,后者的基本事实假设是沿着连接LAEO受试者估计的3D眼睛的线。根据经验,我们观察到,在我们最好的(时间上的)纯弱监督配置(主论文表1的最后一行)中,用余弦损失替换L3D几何,会导致在Gaze360 (CMU全景:25.9→ 30.0和AVA-LAEO: 26.3→ 29.63)上始终较差的性能。

B.4. Utility of L2Dgeom loss

图像平面上的2D眼睛位置可以在没有深度模糊的情况下估计,并且比3D眼睛位置更可靠。为了量化L2Dgeom对我们系统整体性能的贡献,我们将增加的噪声(仅z)作为3D眼睛位置的绝对地面真实深度与CMU全景数据集中LAEO下的受试者的比率,训练各种纯弱监督配置(如主论文第4.1节所述),有和没有L2Dgeom,并在Gaze360上进行评估(图7)。虽然我们看到凝视预测精度随着深度噪声的增加而下降,但L2Dgeom的加入抑制了凝视模糊性,并降低了凝视估计的下降。除此之外,我们还观察到,在Gaze360的测试集(CMU全景:27.0→23.7和AVA-LAEO: 23.6→ 19.8)上,包含L2Dgeom使凝视预测更加一致,并降低了误差的标准偏差。
图7图7。当使用LAEO损失的不同组合(L3Dgeom始终开启)进行训练时,CMU全景望远镜在Gaze360上的纯弱监督性能,增加了相对深度噪声(µ = 0,σ = {0.1,0.3,0.5})。考虑到L2Dgeom损耗,增加深度噪声时的性能比不增加深度噪声时的性能下降更为平稳。曲线图显示了用不同网络权重初始化的4个不同训练运行的中值。

C. Detailed Cross-dataset Performance

对于主论文第4.2节和表2中描述的跨数据集实验,我们还分析了在Gaze360测试集上,随着注视偏航角度的变化,注视误差的变化。我们考虑用(A)只捕捉视线(图8中的虚线)或(b)捕捉视线和LAEO(图8中的实线)进行训练的情况。图9中示出了用(A)仅用ETH-XGaze或(b)用ETH-XGaze和AVA-LAEO进行训练的相应曲线。蓝色曲线显示整个Gaze360测试集的性能,而红色曲线仅适用于包含正面的子集。
图8图8。与GazeCapture和AVA-LAEO联合训练的Gaze360测试集的凝视误差减少。虚线曲线仅用于使用GazeCapture训练,实线曲线用于与GazeCapture和AVA-LAEO联合训练。每条曲线代表1.8宽的箱中样本的平均值,20个或更少样本的箱被丢弃。纵轴以对数刻度表示。越低越好。

图9图9。在与ETH-XGaze和AVA-LAEO联合训练的Gaze360测试集上,凝视误差的减少。虚线曲线仅用于使用ETH-XGaze训练,实线曲线用于与ETH-XGaze和AVA-LAEO联合训练。每条曲线代表1.8宽的箱中样本的平均值,20个或更少样本的箱被丢弃。纵轴以对数刻度表示。越低越好。

AVA-LAEO数据集展示了极端凝视角的大范围分布,因为LAEO活动主要由侧面轮廓相互注视的人组成(示例见主论文中的图1和图2以及补充论文中的图11)。这方便地增加了具有窄注视分布的数据集,例如注视捕捉(图8中的虚线对实线),其主要集中于零的注视俯仰和偏航值(来自主论文的图3),并帮助它们更好地推广到注视360。AVA-LAEO数据集还包含很大的外观可变性,因为它是从野外视频中收集的,这积极地增强了仅在室内收集的数据集,例如ETH-xgale(虚线对实线图9),并有助于它更好地推广到Gaze360。在与AVA-LAEO公司联合训练GazeCapture或ETH-xGalect数据集时,我们发现它们在Gaze360的所有头部作物上的表现都有显著提高,包括具有大轮廓视图的人脸(图8和图9中的蓝色曲线)。有趣的是,添加AVA-LAEO数据集也提高了GazeCapture和ETH-xGazet在Gaze360正面作物上的跨域性能(图8和图9中的红色曲线)。

图111图112图11。(上图)一个正的和(下图)一个负的场景几何重建的例子。请注意,底部示例中最右边的对象相对于z深度的3D头部位置不正确。右边的对象显然比左边的对象更靠近相机(就z深度而言),但被错误地估计为离它更远。这反过来又会产生嘈杂的3D凝视标签。

D. Data Pre-processing

我们首先详细描述我们如何预处理CMU全景(讨价还价活动子集)和LAEO数据集。然后,我们分析了我们用来估计场景几何形状的简化假设(如主论文第3.3节所述)对从真实世界LAEO数据导出的3D凝视注释的可靠性的影响。

D.1. CMU Panoptic

CMU全景数据集包含从圆顶内的高清摄像机捕获的31个视图,具有可用的精确的身体/面部3D地标位置和摄像机内部和外部参数。这使我们能够计算每个对象相对于任何场景摄像机的头部位置和方向。这种方便的设置允许我们通过利用LAEO约束来快速收集我们自己的大规模凝视数据集。然而,该数据集不包含关于视频帧中存在或不存在LAEO活动的明确信息。因此,我们使用一个半自动程序,用LAEO活动标签来标记其中的视频帧。我们使用预先训练的Gaze360静态网络[17]从多个正面视图中估计每个对象的凝视(即,如果给定的面部朝向相机主轴的90°以内)。这些凝视估计然后被转换成世界坐标,并且它们的成对余弦距离被计算在一帧中存在的每个对象对之间。当两个受试者彼此之间的角度间隔(其中一个向量被颠倒)以及连接他们的巨大3D眼睛的3D线小于20°时,假设两个受试者的一对凝视向量处于LAEO下方。当一对受试者的多视角凝视对中至少有4个被归类为在LAEO时,他们被视为在LAEO。讨价还价活动的性质决定了只有一对选手可能会展示LAEO。没有检测到或检测到多个LAEO对的帧将从分析中删除。

我们经历了两种情况:a)某些对象的面部特征可能被场景中的另一个对象遮挡,b)多个对象可能出现在同一个头部边界框内(见图10)。为了缓解这个问题,我们首先计算一个围绕受试者耳朵、眼睛和鼻子关键点的面部边界框。接下来,我们计算每个受试者身体周围的边界框。面部边界框与其他受试者的身体边界框重叠的视图(即边界框IOU得分≥0.01)将从分析中丢弃。这反过来导致在中央15°注视俯仰和偏航分布区域中缺少注视值(参见主论文中的图3)。
图10图10。从我们的实验中丢弃的CMU全景帧的例子。

D.2. AVA-LAEO

3D头部姿势和地标的可用性是计算我们的LAEO损失的重要要求。但是,这些注释在AVA-LAEO数据集中不可用。我们利用从DensePose [11]导出的密集2D-3D对应预测,将SMPL 3D头部模型拟合到AVA训练集[10]的LAEO注释帧内的每个检测到的受试者,其中LAEO注释由马林-希门尼斯等人[25]提供。为了在导出这些对应关系的同时提高计算效率,我们利用了由DensePose检测到的多达1000个2D像素,这些像素属于受试者的头部。为了确保在计算3D头部姿态时,每个检测到的面部区域都得到很好的表示,我们根据2D像素与平均2D头部位置的距离对其进行统一采样。然而,不正确的头部姿态估计由于不正确的2D三维对应是不可避免的。头部姿态拟合的正面和负面例子见图11,其中后者导致AVA-LAEO数据集的噪声凝视标签。

D.3. Reliability of LAEO 3D Gaze Labels

当场景几何未知时(例如,在真实世界的LAEO数据集中),从LAEO导出的3D凝视标签确实是有噪声的。我们在训练我们的系统来解决这个问题时引入了各种约束,并在受控(CMU全景)和野外(AVA-LAEO)数据集上显示了结果。然而,作为粗略的估计,我们比较了从近似场景几何图形导出的3D凝视之间的角度间隔(在第节中描述)。3.3)及其地面真实值,使用来自CMU全景数据集的3495幅图像的子集。平均来说,我们观察到14.8的凝视标签误差和地面真实深度和估计的对象深度之间的绝对相对深度差为0.3,当2D环眼点和对象的z深度都被估计时,并且焦距被假设为最大的图像维度。用精确的焦距代替将视线标签误差降低到10.1,使用精确的2D环眼中心将误差进一步降低到8.84。此外,假设人们看着彼此的3D眼睛中心,对于相距超过500毫米的受试者,会引入< 4.3°的凝视误差。这些标签误差明显小于在Gaze360的交叉数据集(∨[ 44]中的30)和半监督(>主论文图4中的25)训练中遇到的误差,使得LAEO数据成为在物理无约束设置中监督3D注视学习的可靠来源。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值