FusionSeg_Learning to combine motion and appearance for fully automatic 论文翻译

一、摘要

我们提出了一个端到端的学习框架,在视频中分割一般对象。我们的方法是学习将外观和运动信息结合起来,为所有突出的物体生成像素级的分割掩码。我们将该任务作为一个结构化的预测问题,设计了一个双流全卷积神经网络,将运动和外观融合在一个统一的框架中。由于缺乏像素级分段的大型视频数据集,我们展示了如何将弱注释的视频与现有的图像识别数据集一起进行训练。通过对三种具有挑战性的视频分割基准的实验,我们的方法实质上改进了对一般(看不见的)对象进行分段的最先进的结果。代码和预先训练的模型可以在项目网站上找到。

1. Introduction

在视频对象分割中,任务是将前台对象从背景中分离出来。这需要为前景对象计算密集的像素级掩码,而不考虑对象的类别—即。学习对象特定模型不能被假定。由此产生的前景对象段是一个时空管,在空间和时间上描绘对象边界。这个基本问题有很多应用程序,包括高级视觉任务,比如活动和对象识别,以及图形领域,比如后期制作视频编辑和转描机技术。

近年来,视频对象分割得到了广泛关注,在完全自动算法上取得了长足的进展[1、2、3、4、5、6、7、8、9]、传播方法[10、11、12、13、14、15]和交互方法[16、17、18、19]。我们对完全自动化的设置感兴趣,系统直接处理视频。

没有任何人工参与。放弃手工标注可以扩展视频数据的处理,但仍然是一个非常具有挑战性的问题。自动算法不仅需要为任何通用对象生成精确的时空边界,而且还需要处理诸如遮挡、形状变化和摄像机运动之类的挑战。

虽然单独的外观可以推动图像的分割,但视频提供了丰富的、互补的信息来源,以对象的形式运动。很自然地,期望外观和动作都应该在视频中成功分割对象中扮演关键角色。然而,现有的方法并没有将这些互补的信息来源统一起来。

特别地,今天的运动是用于视频分割的两种主要方式。一方面,传播或交互技术非常依赖于视频中由人绘制的框架所产生的外观信息。这里的运动主要用于在结果分割中传播信息或强制时间一致性[13,14,15,20]。另一方面,完全自动化的方法通过定位可能的移动对象,强烈地依靠运动来播种分割过程。一旦一个移动的对象被检测到,外观主要用于跟踪它的帧[4,6,8,9]。如果对象是静态的,或者有重要的摄像机动作,这些方法可能会失败。在这两种范式中,结果都是痛苦的

因为这两个基本线索只能用顺序或不连贯的方式来处理。

我们提出了一种端到端的可训练模型,该模型基于统一框架内的通用(非分类)对象外观和运动的各自优势。具体地说,我们开发了一种新颖的双流完全卷积深度分割网络,在该网络中,单个的流对视频帧和相应的光流进行了一般的外观和运动信号的编码。这些单独的线索融合在网络中,为每个视频帧生成最终的对象和背景像素级的二进制分割。在新视频中,所提议的网络将静态和移动对象分割为没有任何人员参与的对象。

声明运动应该帮助视频分割是没有争议的,而且我们确实不是第一个将运动注入视频分割的,如上所述。然而,到目前为止,它的和并不比它的部分要大得多。我们认为这是因为运动的信号是足够复杂的,因此需要丰富的学习模型来利用它。例如,一个单一的物体可以同时显示多个运动,背景和摄像机的运动可以相互混合,甚至小幅度的运动也可以提供信息。

要学习到丰富的信号,需要有足够的训练数据。然而,没有大规模的视频数据集存在像素级分段。我们的第二个贡献是解决这个实际问题。我们提出了一种解决方案,利用现成的图像分割注释和弱标注的视频数据来训练我们的模型。

我们的研究结果显示,在一个统一的框架中,从这两个信号中学习的回报是:一个真正的协同作用,通常比我们从一个系统中获得的效果要大得多——即使他们得到的是一个同样复杂的深度网络。我们在多个具有挑战性的数据集上为全自动视频对象分割提供了最先进的技术。在某些情况下,所提议的方法甚至比现有的方法更出色,这些方法需要对目标视频进行手动干预。总而言之,我们的主要贡献是:

•第一个端到端可训练框架,用于在视频中生成像素级前景对象分割。

•在多个数据集上最先进的技术,改进了许多文献报道的结果,并且大大超过了更简单的光流应用

•训练一个深度像素级视频分割模型的方法,只能使用弱标记的视频和带有强烈标签的图像,同时也没有对这些类别中存在的类别进行明确的假设。

图1:我们展示了由我们的联合模型产生的彩色编码的光流图像(第一行)和视频分割结果(第二行)。我们提出的端到端可训练模型同时利用了通用对象的外观和运动在一个统一的框架内的各自优势。

2. Related Work

自动方法全自动或无监督视频分割方法在视频中没有人工输入。它们可以分为两大类。首先我们有超体素的方法[1,2,3],它将视频的超段分割成具有内聚的外观和运动的时空斑点。他们的目标是生成用于下游处理的中等水平的视频区域,而我们的目标是生成精确描绘对象边界的时空管道。其次,我们有完全自动的方法,产生数以千计的“对象”的时空片段[21、22、23、24、25]。虽然在加速对象检测方面很有用,但是当需要一个单一的假设时自动选择最精确的是不容易的。方法产生一个单一的假设[4,5,6,8,9,26,27,28]强烈地依赖于运动来识别物体,无论是通过观察移动区域的外观模型,还是利用光流直接推理出遮挡边界。这限制了他们在视频中分割静态对象的能力。相比之下,我们的方法是全自动的,产生一个单一的假设,并且可以分割静态和移动的对象。

人引导的方法,半监督的标签传播方法接受人对一个子集的输入,然后将其传播到其余的帧[10,11,29,12,13,14,15,20,30,31]。在类似的情况下,交互式视频分割方法在循环中利用一个人来提供指导或纠正错误,例如,[16,18,19,32]。由于人类对感兴趣的对象进行了定位,所以这些方法通常更侧重于从手工注释中学习对象外观。运动主要用于传播信息或执行时间平滑。在提出的方法中,运动和外观都扮演着同样重要的角色,并且我们展示了它们的协同结合结果,这是一个更好的分割质量。此外,我们的方法是全自动的,并且不使用人类参与来分割一个新的视频。

类别特定的语义分割状态,用于图像的艺术语义分割技术依赖于完全卷积的深度学习体系结构,这些结构是endto -end trainable[33,34,35,36]。这些基于深度学习的图像分割方法近年来得到了飞速的发展。不幸的是,视频分割并没有取得如此迅速的进展。我们假设,缺乏大规模人员分割的视频分割基准是一个关键瓶颈。最近的像Cityscapes[37]这样的视频基准是有价值的,但是1)它处理分类特定的细分,2)到目前为止,在它上竞争的方法独立处理每一个框架,将它当作多个图像分割任务来处理。与此相反,我们的目标是在视频中分割通用对象,无论它们是否出现在训练数据中。此外,我们的想法是利用弱标记的视频训练,开辟了一种训练深度细分模型的途径,这种模式融合了空间和时间的线索。

深度学习与运动深度学习结合在视频中的动作和外观,已经被证明在其他一些计算机视觉任务中很有用,比如视频分类[39,40],动作识别[41,42],目标跟踪[43,44,45]甚至是光流的计算[46]。当我们从这些作品中获得灵感的时候,我们是第一个用完全自动的方式呈现视频中物体的深度框架的人。

图2:我们模型的网络结构。每个卷积的一层一层除了第一个7×7卷积和我们融合块是一个残块[38],改编自resnet - 101。我们在每个盒子的顶部显示分辨率的降低,以及每个盒子底部堆叠的卷积层数

3. Approach

我们的目标是在视频中分割通用对象,独立于它们所属的对象类别,不需要任何人工干预。我们将这个问题作为一个密集的标签任务:给定一个视频帧序列[I1,I2,…我们想要推断每个帧中每个像素的“对象”或“背景”,输出一个二进制映射的序列[S1,S2,…,SN]。我们提出一个基于卷积神经网络的解决方案。

首先,我们将基于外观的通用对象划分为单个帧(第3.1节)。然后我们使用外观模型在训练视频中生成初始像素级的注解,并引导强大的注解来训练一个模型(Sec . 3.2)。最后,我们将这两条流融合到一起来进行视频分割(第3.3节)。

3.1.   Appearance Stream

基于我们的“像素目标”方法[47],我们训练一个深度全卷积网络来学习通用前景外观模型。它的主要思想是对对象分类进行预处理,然后通过对相对较少的像素标记前景掩码进行微调,重新利用网络生成二进制对象分割。像素对象使用VGG架构[48],并将其完全连接的层转换为卷积层。由此产生的网络具有强烈的目标感,使得识别超过3000个物体类别的前景区域成为可能,尽管在训练过程中只看到了20个地面真相面具。

我们采取这一基本理念,并为我们的工作升级其实施。特别地,我们采用了图像分类模型resnet - 101[38,49],将最后两组卷积层替换为扩张的卷积层来增加特征分辨率。这导致只有一个8×减少输出分辨率,而不是32×减少输出分辨率在原始ResNet模型。为了提高模型处理大小对象的能力,我们将resnet - 101的分类层替换为4个具有不同采样率的平行扩张卷积层,以显式地解释对象尺度。然后,我们将所有四个平行层的预测相加,将所有的输出相加。损失是在输出层中每个像素位置上的交叉熵值的总和,其中地面真值掩码仅由两个labels -对象前景或背景组成。我们使用[49]的Caffe实现来训练模型。该网络采用任意大小的视频帧,并生成相同大小的objecUNK map。如图2(上流)。

3.2.  Motion Stream

我们完整的视频分割体系结构包括两个流网络,其中并行流用于外观和运动处理RGB和光流图像,然后连接到一个融合层(见图2)。

直接与上面讨论的外观流平行,将需要训练运动流将光流图映射到视频帧前景图。然而,解决这个问题的一个重要的实际问题是训练数据可用性。虽然ground truth前景图像分割至少是有限的,但视频对象分割掩码的数据集在深度学习方面是小规模的,主要支持评估。例如,segtrack - v2[7]是一种常用的视频分割基准数据集,它只包含14个带有1066标记帧的视频。DAVIS[50]只包含50个序列,其中有3455个有标签的帧。没有一个包含足够的标记帧来训练一个深层的神经网络。像CamVid[51]或Cityscapes[37]这样的语义视频分割数据集比较大,但由于侧重于街景和车辆而限制了对象的多样性。对于我们的任务来说,一个好的训练来源将会有大量的框架,在各种各样的前景对象上有人类的分割,并且将显示一个良好的静态和移动对象的混合。没有这样大规模的数据集存在,并且创建一个是非常重要的。

我们提出了一种解决方案,利用现成的图像分割注释和弱标注的视频数据来训练我们的模型。简单地说,我们暂时将模型的两个流解耦,并且允许出现流在一个大型的视频数据集的帧中假设可能的前景区域,这些数据集只在边界框中进行注释。由于外观本身不需要产生完美的分割,我们设计了一系列的过滤阶段来产生对真实前景的高质量估计。这些实例引导了光流流的预训练,然后将两个流连接在一起,从最小的人标记训练视频中学习最佳组合。

更具体地说,给定一个带有标记为每个对象的边框的视频数据集,我们将忽略类别标签,并将它们单独映射到每个框架。然后,我们应用了外观流,到目前为止只训练了由它们的前景面具标记的图像,来计算每个帧的二进制分割。

接下来,我们在每个训练框架中解调盒子和分割。首先,我们通过将边界框(es)之外的所有像素设置为背景来细化二进制分割。第二,对于每个边界框,我们检查是否包含所有前景像素的最小矩形与边界框重叠至少75%。否则,我们就放弃了分割。第三,我们抛弃了盒子里有超过95%像素标记为前景的区域,基于好的分割很少是矩形的前提,因此可能真正的前景会溢出到盒子之外。最后,我们消除了物体和背景缺乏明显的光流的部分,因此我们的运动模型可以从所需的线索中学习。具体地说,我们使用[52]计算帧的光流,并将其转换为RGB流图像[53]。如果2-norm)之间的边界框内的平均值和b)的平均价值在一个盒子里的高度和宽度的两倍原始大小超过30,框架和过滤细分添加到训练集。参见图3为视觉的说明这些步骤。
为了概括,从初步的外观模型开始引导,然后是包围盒剪枝,边界盒测试,以及光流测试,我们可以为成千上万的不同移动对象生成准确的像素前景掩码,而这些数据集目前还不存在。注意,通过消除这些过滤器的训练样本,我们的目标是减少培训的标签噪音。然而,在测试时,我们的系统将被评估在标准的基准上,每个框架都被手动注释(参见第4条)。
有了这些数据,我们现在就来训练运动流。类似于我们强大的通用外观模型,
我们还想要训练一种强大的通用运动模型,它可以基于运动来分割前景对象。我们使用与外观模型完全相同的网络架构(见图2)。我们的运动模型只接受光流作为输入,并接受自动生成像素级地面真值分割的训练。特别地,我们将原始光流转换为一个三通道(RGB)彩色编码的光流图像[53]。我们使用这种颜色编码的光流图像作为运动网络的输入。我们再一次用ImageNet分类[54]对我们的网络进行预先训练的权重初始化。使用RGB流图像表示光流可以使我们利用强大的预先训练的初始化以及在网络的外观和运动臂上保持对称。
另一种解决方案可能是放弃传递系统的光流,而是输入两个连续的RGB帧。然而,这样做可能需要更多的训练实例来发现必要的线索。另一种方法是直接训练结合运动和外观的关节模型,而我们首先“训练”每一个流,使其发现依赖于外观或运动的卷积特性,随后是融合层(下图)。我们的设计选择根植于避免在训练我们的模型时产生偏见。由于(pseudo)ground truth来自于最初的外观网络,所以从发病过程中联合进行的训练很可能会导致网络以牺牲运动为代价来利用外观。通过只提供光流的运动模型,我们保证我们的运动流学习从运动中分割物体。
3.3. Fusion Model
我们的管道的最终处理连接到外观和运动流的输出,并且目标是利用一个大于其部分之和的整体。我们现在描述如何使用两个流来训练联合模型。
如果一种物体的分割预测是可靠的,那么它就可以预测出具有很强的可信度的目标分割。这激发了我们的联合模型的结构。
我们实现这个想法通过创建三个独立并行分支:1)我们应用卷积1×1层随后RELU外观模型的输出2)我们应用卷积1×1层随后RELU运动模型的输出3)我们复制第一和第二分支的结构和应用element-wise输出乘法。element- wise的乘法保证了第三个分支输出有信心的对象分割的预测,如果且仅当外观模型和运动模型都有很强的预测。最后,我们应用了一个元素最大的层来获得最终的预测。参见图2。
正如上面所讨论的,我们不会在早期就把这两条流融合在一起,因为我们希望它们都有很强的独立预测。我们的方法的另一个优势是我们只介绍六个额外的参数在每个卷积1×1层,总共24可训练的参数。我们可以用非常有限的带注释的视频数据来训练融合模型,而不需要过度拟合。在缺乏大量视频分割训练数据的情况下,排除了完整的端到端培训,我们的分离单个流和训练的策略在实践中非常有效。

图3:生成(pseudo)ground truth片段的过程。我们首先应用外观模型来获得初始的分段(第二行,用绿色的对象段),然后通过在边框外设置像素作为背景(第三行)来进行修剪。然后我们应用边界盒测试(第4行,黄色边界框是ground truth,蓝色边框是最小的边界框,包含前景段)和光流测试(第5行),以确定我们是否将分割添加到运动流的训练集或丢弃它。最好的颜色。
四、Result
数据集和度量:我们在三个具有挑战性的视频对象分割数据集上评价我们的方法:DAVIS[50]、youtube - objects[55、14、56]和Segtrackv2[7]。为了测量精度,我们使用标准的Jaccard评分,它计算了预测和地面真实目标分割之间的联合重叠(IoU)的交集。这三个数据集是:
•戴维斯[50]:最新和最具挑战性的视频对象分割基准,由50个高质量的视频序列组成,其中有3455个密集的注释,像素精确的帧。这些视频在本质上是不受限制的,包含了诸如遮挡、运动模糊和外观变化等挑战。只有突出的运动物体在地面上被标注。
•youtube - objects[55,14,56]:由来自10个对象类别的126个具有挑战性的web视频组成,超过2万个框架,通常用于评价视频对象的分割。我们使用[56]中定义的子集和[14]提供的ground truth进行评估。
•segtrack - v2[7]:视频对象分割的最常见的基准之一,包含14个视频,总共有1066个像素级的注释。对于具有多个对象的视频,我们将它们作为一个单独的前景进行评估。
基线:我们与文献中所报告的每个数据集的几种最先进的方法进行比较。在这里,我们将它们组合在一起,基于它们是否能够以完全自动的方式操作(自动),或者需要一个人在循环(半监督)中进行分割:
•自动方法:自动视频分割方法不需要任何人参与视频片段的分割。根据数据集,我们比较了以下几种art方法:FST[8],KEY[4],NLC[9]和[26]。所有的方法都使用某种形式的无监督运动或目标线索来识别前景对象,然后进行后处理以获得时空物体的分割。
••半监督方法:半监督方法将人带入循环。他们对感兴趣的对象有一些了解,这些知识被用来获取分割(例如,一个手工标注的第一帧)。[1]、[57]、FCP[20]、[19]、[14]、[30]。方法需要不同数量的人类注释来操作,例如HOP、BVS和FCP在第一帧中使用手工完整的对象分割来生成方法;HBT要求在第一帧的对象周围有一个包围框;HVS,IVID需要一个人在它失败时不断地指导算法。
请注意,我们的方法只需要在训练时使用人工标注的数据。在测试时,它以完全自动的方式运行。因此,在一个新的视频中,我们需要与自动方法一样的努力,而不是半监督的方法。
除了这些比较,我们还研究了一些自然的基线和我们方法的变体:
•流-阈值(flow - th):为了检验在分割对象中单独运动的有效性,我们在每个帧中使用流量大小来自适应阈值的光流。具体来说,我们计算了流量大小的L2规范的平均值和标准偏差,并使用“平均+单元std”作为阈值。
•流- saliency(flow - saliency,flow - sal):光流大小可以有较大的差异,因此我们也尝试通过将一个显著性检测方法[58]应用于流图像本身,从而使流程规范化。我们使用平均阈值来获得分割。
•外观模型(our- a):为了量化外观在分割对象中的作用,我们仅使用模型的外观流来获取片段。
•运动模型(ours - m):为了量化运动的作用,我们只使用模型的运动流来获得片段。
•关节模型(ours - joint):我们的完整关节模型,学习将运动和外观结合在一起以获得最终的目标分割。
实现细节:为了训练外观流,我们依赖于PASCAL VOC 2012分割数据集[59],使用总计10582个具有二进制对象和背景面具的训练图像(详见[47])。作为弱边框的视频注释,我们使用imagenet - video数据集[54]。该数据集共包含3,862个训练视频,来自30个对象类别,其中866,870个标记的对象包围盒来自超过100万个帧。使用我们的ground truth生成过程(参见第3.2节),我们得到了84929帧,其中有很好的像素分割,然后用来训练我们的运动模型。为了训练联合模型,我们为每个数据集使用了一个按下的集合。我们对每个流进行2万个迭代,使用“poly”学习速率策略(功率= 0.9)和动量(0.9)和重量衰减(0.0005)。在从我们的网络中获得的分段上没有应用后处理。
训练数据的质量:为了确定我们自动生成的训练数据的质量是好的,我们首先将它与少量的人类标注的地面实况进行比较。我们随机选择了100帧同时通过了边界框和光流测试,并在亚马逊MTurk上收集了人的分割。我们首先为人群提供了一个框架,里面有一个标记为每个对象的包围盒,然后要求他们为包围盒中的所有对象绘制详细的分割。每一帧都由三名人群标记,最后的分割是通过对每个像素的多数投票来获得的。结果表明,我们收集伪地真理的策略是有效的。在100个贴有标签的框架上,Jaccard与人类绘制的ground truth的重叠部分是77.8(和70.2,然后用边界框进行修剪)。
定量评价:我们现在用几种最先进的方法和基线对我们的方法进行定量的比较,依次对这三个数据集进行比较。
表1显示了结果,其中一些性能最好的方法取自基准测试结果[50]。我们的方法在这个数据集上超过了所有现有的方法,并且显著地提高了最先进的方法。我们的方法明显优于简单的流基线。这支持了我们的观点,即使运动包含了关于视频中前景对象的强烈信号,但它并不是简单的简单的阈值光流并获得这些分割。一种数据驱动的方法,它学习识别物体的运动模式,而不是背景或摄像机运动。
我们的方法本身的外观和运动的不同导致了一个非常好的性能。运动变型的表现尤其令人印象深刻,因为它知道它没有关于物体外观的信息,纯粹依赖于流动信号。当结合在一起时,联合模型的结果是显著的改进,在单个的流上绝对获得高达11%的收益。
在表2中,我们在youtube - objects数据集上看到了类似的强大结果。我们的方法再次超越了流量基准和所有自动方法的一个重要的空白。NLC[9]的公开代码仅在YouTube数据集(1725帧)的9%上成功运行;在这些方面,其jaccard得分为43.64%。我们提出的模型比它高出25%。即使是在“以人为本”的方法中,除了IVID[19]之外,我们也会超越所有的方法。然而,IVID[19]要求一个人始终如一地跟踪分割性能,并纠正算法所犯的任何错误。这可以占用每个视频的注释时间。我们的方法使用了零人类参与,但仍然具有竞争力。
还需要注意的是,这个数据集与PASCAL细分基准(用于培训我们的外观流)共享类别。因此,我们观察到,出现流本身会导致整体最佳性能。此外,该数据集具有静态和移动对象的混合,这解释了我们的运动模型的相对较弱的性能。总的来说,联合模型的工作原理和外观相似,但是我们的消融研究(见表4)根据它们的运动量对测试帧进行排序,表明我们的关节模型对运动物体更强。简而言之,我们的联合模型在移动对象上优于我们的外观模型,而我们的外观模型对于最静态的帧来说是足够的。现有的方法往往在一个极端或另一个极端,我们的方法处理好。
在表3中,我们的方法在Segtrack上优于NLC[9]的所有半监督和自动方法。虽然我们的方法在DAVIS数据集上显著优于NLC[9],但是在这个数据集上NLC异常强大。我们相对较弱的性能可能是由于segtrack - v2视频的低质量和分辨率,这使得我们基于网络的模型很难处理它们。尽管如此,我们的关节模型仍然对我们的外观和运动模型提供了显著的提升,表明它再次以一种严肃的方式实现了运动和外观的协同作用。
定性评价:图4为定性结果。上半部分展示了我们的方法的不同组成部分的视觉比较,包括外观、运动和关节模型。我们还展示了作为运动流输入的光流图像。这些图像有助于揭示学习运动信号的复杂性。在熊的例子中,气流只在熊的头部最突出,而我们的运动仅能将熊完全分割。这艘船、汽车和风帆的例子表明,即使是在水流很吵的情况下——包括在背景上的强劲气流——我们的运动模型也能够了解物体的形状,并成功地抑制了背景。rhino和train示例展示了外观模型失败的情况,但是当与运动流结合时,联合模型会产生精确的分割。
图4的下半部分显示了我们的方法和最先进的自动[8,9]和半监督[20,30]方法之间的可视化比较。自动方法对物体的外观有很弱的概念;因此,它们完全忽略了对象的某些部分[9],或者不能将对象从背景中消除[8]。半监督的方法[20,30]严重依赖于初始的人分割框架来学习对象的外观,随着时间的流逝开始出现故障,对象的外观也发生了很大的变化。相比之下,我们的方法成功地学会了将物体运动和外观的一般线索结合起来,甚至在极具挑战性的视频中更精确地分割所有帧。
5. Conclusions
我们提出了一种新的方法来学习在视频中对通用对象进行分段,从而在运动和外观之间实现更深层的协同作用,并解决了在训练深度网络视频分割方面的实际挑战。结果显示,在许多现有的方法上有相当大的改进——在某些情况下,甚至是那些需要人工干预的方法。在未来的工作中,我们计划探索扩展,允许个性化的多个触摸前景对象,以及将人类干预智能融入我们的框架的方法。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值