【VQA综述】Visual Question Answer:A Survey of Method and Datasets 学习笔记

Abstract

视觉问答(VQA)是一项具有挑战性的工作,而且已经接收到来自计算机视觉和自然语言社区越来越多的注意。给定图像和自然语言问题,就需要对图像的视觉元素和常理进行推理得到正确的答案。在这个研究的第一部分,我们通过比较现代解决问题的技术来审视了state-of-art。我们通过他们将视觉和文本联系起来的机制将方法进行了分类。特殊地,我们研究了使用卷积神经网络循环神经网络将图片映射到特征空间的常用方法。我们还讨论了与结构化知识基础相关联的内存增强和模块化体系。在研究的第二部分,我们回顾了用于训练和评估VQA系统的数据集的可用性。不同的数据集包含了不同复杂程度的问题,这需要不同能力和类型的推理。我们深入研究了Visual Genome项目中的Q&A,并且评估带有结构图的图与VQA场景图的相关度。最后我们讨论了领域内未来有希望的方向,特别是结构化知识体系的连接和使用自然语言处理模型。

1. Introduction

视觉问题解答是一项旨在连接计算机视觉和自然语言处理(NLP)的任务,促进研究和推动两个领域界限。一方面,计算机视觉研究了获取、处理、理解图像的方法。简而言之,他的目的是教会机器如何去看。在另一方面,NLP是一个关心让人类和计算机通过自然语言进行交互的领域,教会机器如何阅读以及其他的任务。计算机视觉和NLP都属于人工智能领域,并且他们都源于机器学习。(略,后面大致描述一些计算机视觉和NLP领域的发展事例)

一种成功的方法是将经过对象识别训练的卷积神经网络(CNN)与经过大文本语料库训练的单词嵌入相结合。

ps:介绍Visual question answering是什么,引出关于计算机视觉和NLP的相关介绍。

最常见的视觉问题解答(VQA)形式:向计算机显示图像和有关图像的文本问题。然后,它必须确定正确的答案,通常是几个单词或一个简短的短语。还有一些变体例如二进制和多选项设置。

VQA和计算机视觉中其他任务之间的主要区别在于,要回答的问题必须等到运行时才能确定。(在比如图像分割任务中,任务的问题是单一的,只需要更改输入的图片)

ps:可以理解为VQA是图片问题一对多,图像分割是图片问题多对一。

VQA与文本问题解答的任务有关,其中答案可以在特定的文本叙述中(即阅读理解)或在大型知识库中(即信息检索)找到。文本质量检查已在NLP社区中进行了很长时间的研究,而VQA是其对其他可视化支持信息的扩展。由于图像的尺寸要高得多,而且通常比纯文本更嘈杂,因此增加了挑战。此外,图像缺乏语言的结构和语法规则,并且没有直接等价于NLP工具的功能。(略,后面都是对问题的描述以及困难程度)

2. Methods for VQA

Malinowski等人提出了“开放世界”视觉问题解答的最早尝试之一。他们描述了一种将贝叶斯公式中的语义文本分析与图像分割相结合的方法,该方法从训练集中的最近邻居中采样。该方法需要人工定义,不可避免的出现数据集特殊性导致无法拓展。而且非常依赖于图片分割算法和估计图像深度信息的准确性。

另一个VQA的早期尝试是基于文本和视频的联合解析图。Geman提出了一种自动的查询生成器,它在标注好的图片上进行训练,然后从给定的测试图片产生一串二进制问题。

这些早期方法的共同特征是将问题限制为预定义的形式。本文的其余部分重点介绍旨在回答自由形式的开放式问题的现代方法。我们将呈现四个类别的方法:联合嵌入法注意机制组成模型知识库增强方法

2.1 Joint embedding approaches

Motivation: 图像和文本联合嵌入的概念首先是为图像说明的任务开发的。他受深入学习算法如计算机视觉和NLP的成功所激发,这些方法允许人们在一个公共的特征空间中学习表示。

  • 图像识别是通过对目标识别进行预训练的CNN得到的。
  • 文本表示是通过在大型语料库上预训练单词嵌入来获得的。

在这里插入图片描述

Top:输出的特征一部分用于分类器(多层感知机),可以预测分类。另一部分用于循环神经网络(LSTM)生成可变长的sentence。

Bottom:注意机制在基础方法之上通过图像特征的空间选择完成。注意力参数来自图像和问题,让输出更多关注图像的相关部分。

Methods: Malinowski等提出了一种名为“神经图像-QA”的方法,该方法通过递归神经网络(RNN)与长短期记忆单元(LSTM)一起实现。(如图所示)

Gao等提出了一种略有不同的方法,称为“多峰质量保证”(mQA)。 它使用LSTM编码问题并产生答案。mQA的编码器和解码器不共享参数,仅共享单词嵌入。

Noh等通过学习带有动态参数层的CNN来解决VQA。该动态参数层的权重是根据问题来自适应确定的。

福井等提出了一种合并方法来执行视觉和文本特征的联合嵌入。他们通过将图像和文本特征随机投影到高维空间来执行“多峰紧凑双线性池”(MCB),然后将两个向量与傅立叶空间中的乘法进行卷积以提高效率。

Performance and limitations: 联合嵌入的原理很简单,并且构成了当前大多数VQA方法的基础。以MCB和MRN为例,最新的改进仍然显示出特征提取及其向嵌入空间的投影方面潜在的改进空间。

2.2 Attention mechanisms

Motivation:前面提到的所有模型的局限性是使用全局的特征作为视觉输入。这会在预测阶段引入不相关的信息或噪音。注意力机制的目的是通过使用局部图像特征来解决此问题,并允许模型为来自不同区域的特征分配不同的重要性。

Methods:朱等介绍了如何添加空间注意力到标准的LSTM模型中。注意力机制用术语 z t z_t zt表示, z t z_t zt是卷积特征的加权平均值,取决于先前的隐藏状态和卷积特征:
e t = W a T t a n h ( W h e h t − 1 + W c e C ( I ) + b a ) a t = s o f t m a x ( e t ) z t = a t T C ( I ) C ( I ) 是图像 I 的卷积特征图 e_t=W_a^Ttanh(W_{he}h_{t-1}+W_{ce}C(I)+b_a) \\ a_t=softmax(e_t) \\ z_t=a_t^TC(I) \\C(I)是图像I的卷积特征图 et=WaTtanh(Wheht1+WceC(I)+ba)at=softmax(et)zt=atTC(I)C(I)是图像I的卷积特征图
Chen等使用不同于上述单词引导注意的机制。他们通过在空间图像特征图中搜索与输入问题的语义相对应的视觉特征来生成“问题导向的注意力图”(QAM)。通过将视觉特征图与可配置的卷积内核进行卷积来实现搜索。通过将问题嵌入从语义空间转换为视觉空间来生成此内核,该视觉空间包含由问题意图确定的视觉信息。

安德里亚斯等以不同的方式运用注意力机制。 他们提出了一个组成模型,该模型可以根据针对每个问题的模块构建神经网络。这些模块中的大多数模块都在关注的空间中操作。

Performance and limitations:所报告的注意机制的使用总是比使用全局图像功能的模型有所改进。有趣的是,注意力机制提高了所有VQA数据集的整体准确性,但按问题类型进行更仔细的检查显示,对二进制(是/否)问题几乎没有好处。一种假设是二元问题通常需要更长的推理链,而开放式问题通常只需要从图像中识别和命名一个概念。因此,改善二元问题可能会需要除视觉关注之外的其他创新。端到端联合嵌入方法的输出(无论使用注意力如何)是通过从大量嵌入的视觉和文本特征到答案的简单映射而得出的,而这些映射是从大量的培训示例中学到的。可以争论在映射中是否执行和/或编码了任何“推理”。通过询问是否可以仅从给定的视觉输入中回答问题来提出另一个重要问题。通常,他们需要先验知识,范围从常识到特定主题甚至专家级知识。如何将此类信息提供给VQA系统以及如何将其纳入推理仍是一个悬而未决的问题。

2.3 Compositional Models

迄今为止讨论的方法存在与用于提取图像和句子表示的CNN和RNN的整体性质有关的限制。人工神经网络设计中越来越流行的研究方向是考虑模块化体系结构。

这种方法涉及连接为特定的所需功能(例如内存或特定类型的推理)设计的不同模块。一个潜在的优势是更好地利用监督。一方面,由于可以在不同的总体体系结构和任务中使用和培训相同的模块,因此它便于进行迁移学习。另一方面,它允许使用“深度监督”,即优化取决于内部模块输出的目标。

在这里,我们关注两个主要在模块化方面做出贡献的特定模型,即神经模块网络(NMN)和动态内存网络(DMN)。

2.3.1 Neural Module Networks

Motivation:它们是专门为VQA设计的,旨在利用问题的构成语言结构。问题的复杂程度差异很大。例如,这是卡车吗? 仅需要从图像中检索一条信息,而烤面包机的左侧有多少个对象? 需要多个处理步骤,例如识别和计数。

该方法使用语义解析器将问题转换为逻辑表达式。 NMN的重要贡献是将这种逻辑推理应用于连续的视觉特征,而不是离散或逻辑谓词。

Method:该方法需要使用NLP社区中众所周知的工具对问题进行语义解析。解析树变成预定义集中的模块的组合,然后将它们一起用于回答问题。针对每个问题实例执行的计算将有所不同,并且在测试时的问题实例可能会使用一组在训练过程中未一起看到的模块。

在这里插入图片描述

模块的输入和输出可以是三种类型:图像特征、对图像的关注(区域)和标签(分类决策)。一组可能的模块是预定义的,每个模块都根据其输入和输出的类型来定义,但是它们的确切行为将通过对特定问题实例的端到端培训来获得。因此,培训不需要额外的监督,只需要图像、问题和答案。

问题的解析是一个关键的步骤,它是由斯坦福德依存关系解析器[来完成的,该解析器基本上识别句子各部分之间的语法关系。

Performance and limitations:优势:具有组合结构的问题,但数据集简单,不需要合成推理。局限性:模块的组装使用了问题的积极简化,抛弃了一些语法线索。

2.3.2 Dynamic Memory Networks

Motivation:动态记忆网络(DMN)是具有特定模块化结构的神经网络。DMNs属于内存扩充网络的更广泛的类别,它对输入的内部表示执行读写操作。这种机制类似于注意力,旨在通过对数据的多个部分之间的多次交互进行建模来解决需要复杂逻辑推理的任务。

Method:动态内存网络由4个主要模块组成。输入模块将输入数据转换为一组被称为“事实”的向量。它的实现取决于输入数据的类型的不同。问题模块使用一个门控循环单元(GRU)来计算问题的向量表示。情景记忆模块检索回答问题所需的事实,允许传递推理。第一个状态用问题模块中的表示法进行初始化。答案模块使用内存的最终状态和问题来预测对单个单词的多项式分类的输出,或者使用需要更长句子的数据集的GRU。

Performance and limitations:与神经网络模型类似,在数字问题上表现较差,但在其他问题上非常优秀。

2.4 Models using external knowledge bases

Motivation: VQA理解图像内容需要事先的非视觉信息。例如,为了回答“在这张图片中出现了多少只哺乳动物?”,人们必须理解“哺乳动物”这个词,并知道哪些动物属于这一类。扩大数据集的方法是无止境的,且无法覆盖所有事物。另一种方法是将推理与数据或知识的实际存储解耦。通过一个三元组表示(arg1,rel,arg2),arg1和arg2表示概念,rel表示关系。这些事实的集合形成了一个相互关联的图并被保存在数据库中。

Method: Wang等人[78]提出了一个名为“Ahab”的VQA框架,该框架使用了最大的结构化知识库之一DBpedia。首先用CNN从给定的图像中提取视觉概念,然后将它们与表示类似概念的DBpedia中的节点相关联。主要限制是处理有限类型的问题。虽然这些问题可以用自然语言提供,但它们是使用手动设计的模板进行解析的。

Wu等人提出了一种联合嵌入方法,它也受益于外部知识库。给定一幅图像,他们首先用CNN提取语义属性。然后,从一个包含简短描述的DBpedia版本中检索与这些属性相关的外部知识,这些描述被嵌入到与Doc2Vec一起使用的固定大小的向量中。嵌入的向量被输入一个LSTM模型,该模型用问题来解释它们,并最终生成一个答案。

Performance and limitations:这两种方法都特别关注需要外部知识的视觉问题,且数据集都包含了需要先验知识的问题,因此这些数据集的性能不能很好地反映这些方法的特殊能力。评估这两种方法的一个问题是问题类型的数量有限和数据集的规模小。

3. Datasets and evaluation

许多数据集已经被提出为专门用于研究VQA的数据集。它们至少包含了由图像、问题及其正确答案组成的三元组。有时会提供额外的注释,如图像标题、支持答案的图像区域或多项选择候选答案。本节包含了可用数据集的全面比较,并讨论了它们对评估VQA系统的不同方面的适用性。

一个给定的数据集通常被用于训练和评估一个VQA系统。然而,这项任务的开放式性质表明,其他大规模的信息来源将是有益的,而且可能是必要的,以培训实际的VQA系统。

其他非特定于VQA的数据集也值得一提。它们针对其他涉及视觉和语言的任务,如图像注释,生成和理解引用表达式,以检索自然语言中的图像和对象。这些数据集超出了本文的范围,但它们是VQA额外训练数据的潜在来源,因为它们将图像与文本注释结合在一起。

3.1 Datasets of natural images

3.1.1 DAQUAR

第一个设计为基准的VQA数据集是DAQUAR,用于真实图像的问题回答。它是由NYU-Depth v2数据集的图像构建的,该数据集包含1449张室内场景的RGBD图像,以及带注释的语义分割。
在这里插入图片描述

3.1.2 COCO-QA

COCO-QA数据集代表了增加VQA训练数据规模的巨大努力。这个数据集使用了来自微软的上下文数据(COCO)数据集中的公共对象。COCO-QA包括123,287张图像(72,783张用于训练,38,948张用于测试),每张图像都有一个问题/答案对。

在这里插入图片描述

3.1.3 FM-IQA

FM-IQA(自由式多语言图像问题回答)数据集使用了123,287张图像,同样来自COCO数据集。与COCO-QA的不同之处在于,这些问题/答案是由人类通过亚马逊土耳其机械众包平台提供的。

3.1.4 VQA-real

VQA-real分别包含123,287张训练图像和81,434张测试图像。该数据集还允许在多项选择题设置中进行评估,为每个问题提供17个额外的(不正确的)候选答案。

在这里插入图片描述

3.1.5 Visual Genome and Visual7W

VQA最大的可用数据集,有170万个问答对。它是由视觉基因组项目中的图像构建的,该项目包括以场景图的形式对场景内容的独特结构化注释。这些场景图描述了场景的视觉元素、它们的属性以及它们之间的关系。

在这里插入图片描述

3.1.6 Visual Madlibs

Visual Madlibs数据集设计用于评估“填写空白”任务上评估系统。目的是确定单词来完成描述给定图像的确认。

Evaluation Measures :对计算机生成的自然语言句子的评价本身是一项复杂的任务。应该同时考虑到句法(语法)和语义的正确性。与生成的真实句子进行比较类似于评价释义,这仍然是自然语言处理社区研究的一个开放研究问题。VQA的大多数数据集都允许通过将答案限制为单个单词或较短的短语来绕过这个问题,通常是1到3个单词。这允许自动评估,并限制了注释过程中的歧义,因为它迫使问题和答案更加具体。

Malinowski 等人的开创性论文提出了VQA的两个评价指标:第一种方法是使用字符串匹配来简单地估计相对于ground truth的精度。只有精确的匹配才被认为是正确的。第二种使用Wu-Palmer相似度(WUPS),它评估它们在分类树中共同子序列之间的相似性。当两个单词之间的相似性超过一个阈值时,就认为候选答案是正确的。

3.2 Datasets of clipart images

本节讨论从剪贴图插图手动创建的合成图像的数据集。它们通常被称为“抽象场景”。这种“卡通”图像允许通过关注高级语义而不是视觉识别来研究视觉和语言之间的联系。这种类型的图像以前被用于捕捉常识,学习人之间的交互模型,从自然语言描述生成场景,以及学习视觉特征的语义相关性。

3.2.1 VQA abstract scenes

VQA基准测试包含剪纸艺术场景,问题/答案对作为真实图像的独立和补充集。其目的是使研究集中于高级推理,消除了解析真实图像的需要。总共生成了50,000个场景,每个场景收集了3个问题。问题的答案类型是:“是/否”、“数字”和“其他”。

在这里插入图片描述

3.2.2 Balanced dataset

大多数VQA数据集都表现出强烈的偏见,例如,一个只使用语言的“盲”模型(即不使用视觉输入)经常可以猜测正确的答案。这严重阻碍了VQA最初的目标,即作为评估深度图像理解的代理。合成场景可以更好地控制数据集中的分布。

在VQA数据集[3]中可以看到强烈偏见的例子,任何以“什么是运动”开头的问题都可以在41%的时间里用“网球”正确回答。类似地,“什么颜色”是正确的回答“白色”23%的时间。总的来说,有一半的问题可以通过一个盲目的神经网络得到正确的回答,即单独使用这个问题。对于二元问题,这一比例上升到78%以上。

当测试不平衡数据(即之前工作的数据设置)时,最好对同样的不平衡数据进行训练,以便学习和利用数据集的偏差。其次,对新的平衡数据进行测试,现在最好对类似的平衡数据进行训练。它迫使模型使用视觉信息,而无法利用训练集中的语言偏差。

作者还以一种提供了更困难的形式的结果,只有当模型能够正确回答一个场景的两个版本(是答案和否答案)时,预测才被认为是正确的。在这种设置中,纯语言模型提供的性能为零。

3.3 Knowledge base-enhanced datasets

3.3.1 KB-VQA

KB-VQA数据集来评估Ahab VQA系统的性能。它包含了DBpedia中需要特定主题知识的问题。从COCO图像数据集中选择700张图像,每张图像收集3到5个问答对,共计2402个问题。每个问题都遵循23个预定义模板中的一个。这些问题需要不同层次的知识,从常识到百科全书式的知识。

在这里插入图片描述

3.3.2 FVQA

FVQA数据集只包含涉及外部(非视觉)信息的问题。它被设计为包括额外的注释,以简化使用知识库的方法的监督训练。与大多数只提供问答对的VQA数据集相比,FVQA的每个问题/答案都包含一个支持性事实。这些事实用三重事实表示(arg1、rel、arg2)。该数据集包含193,005个候选支持事实,涉及580个视觉概念(234个对象,205个场景和141个吸引物。

在这里插入图片描述

3.4 Other datasets

3.4.1 Diagrams

它包括超过5000张代表小学科学主题的图表,如水循环和消化系统。每个图表都用分段和图形元素之间的关系进行了注释。该数据集包括超过15,000个多重回声的问题和答案。

3.4.2 Shapes

合成图像的数据集。它是对自然图像数据集的补充,因为它提供了不同的挑战,通过强调对多个对象之间的空间和逻辑关系的理解。该数据集由关于彩色形状排列的复杂问题组成。

4. Structured scene annotations for VQA

Visual Genome是目前VQA可用的最大的数据集。它以场景图的形式为每个图像提供了人工生成的结构化注释的独特优势。综上所述,场景图是由表示场景的视觉元素的节点组成的,这些节点可以是对象、属性、动作等。我们首先根据每个图像对应的场景图为其构建一个词汇表。词汇表中的单词是由图中的所有节点标签组成的。然后,对于每个问题,我们检查它的答案是否可以与单词匹配,或者与其图像的词汇表中的单词组合匹配。

在这里插入图片描述

我们将上述程序应用于视觉基因组数据集的所有图像和问题。我们发现只有40.02%的答案可以直接在场景图中找到,即只有40.02%的问题可以用场景图表示法直接回答。另外7%的答案是数字(即计数问题),我们选择在其余的分析中忽略它们。仍然有53%的问题不能直接从场景图中回答。

在这里插入图片描述

从表中可以看出,大量以“What”开头的问题是不能用场景图直接回答的。

在这里插入图片描述

问题类型的总体分布也存在差异。

以上分析得出的结论是,当前的场景图是场景的丰富的中间抽象,但它们不够全面,不足以捕获VQA所需的所有元素。

5. Discussion and future directions

VQA任务的引入相对较近,它引起了极大的兴趣,并在短短几年内加速了发展。VQA是一项复杂的任务,它最初是由计算机视觉等基本任务达到的一定成熟程度所鼓励的。VQA特别吸引人,因为它以其最终形式构成了人工智能完成任务,即考虑开放世界自由形式的问题和答案。最近的研究结果虽然令人鼓舞,但不应该愚弄我们,因为这个最终目标无疑与目前的任何技术都有很长的路要走。减少和有限的VQA形式,如多项选择题格式、短的回答长度、有限的问题类型等,都是似乎可以实现的合理的中间目标。他们的评估实际上更容易,也可能更能代表我们的实际进展。

External knowledge :如上所述,VQA构成了一个人工智能完整的挑战,因为人工智能中的大多数任务都可以被表述为图像上的问题。但是请注意,这些问题通常需要外部知识来回答。这也是最近人们对将VQA与结构化知识库连接起来的方法以及需要这种机制的特定问题数据集感兴趣的一个原因。有人可能会说,这样复杂的问题是分散了人们对应该首先解决的纯粹视觉问题的注意力。我们相信,这两条路径都可以并行探索。不幸的是,目前使用VQA知识库的方法存在严重的局限性。使用Doc2Vec对检索到的信息进行编码,但编码过程是与问题无关的,可能包含与问题无关的信息。记忆增强神经网络的概念可以为VQA的整合和自适应地选择相关的外部知识提供一个合适的和可扩展的框架。据我们所知,这一途径尚未被探索过。在数据集方面,涉及重要外部知识的问题是不均匀地表示的。具体的数据集已经被提出了这些问题和附加的支持事实,但它们在规模上是有限的。对数据集的努力可能会刺激这个方向的研究,并有助于训练合适的模型。请注意,这些工作可能只是涉及到对现有数据集的附加注释。

Textual question answering :文本问题回答的任务比视觉对应的任务早了几十年,并产生了大量的工作。传统上提出了两种截然不同的类型的方法:信息检索和语义解析结合知识库。一方面,信息检索方法使用非结构化的文档集合,其中寻找问题的关键词来识别相关的段落和句子。然后,一个排名函数对这些候选项进行排序,并从一个或几个顶级匹配项中提取答案。这种方法可以与VQA的基本“注意联合嵌入”方法进行比较,该方法将描述每个图像区域的特征与问题的表示进行比较,识别要关注的区域,然后提取答案。

一个关键的概念是从问题中预测答案的类型(例如,一个颜色、一个日期、一个人等)。以便于从候选段落中最终提取答案。另一方面,语义解析方法侧重于更好地理解问题,使用更复杂的语言模型和解析器将问题转化为结构化查询。然后,可以在特定于领域的数据库或通用的结构化知识库上执行这些查询。

正如我们之前所述,人们对VQA的兴趣来自于对图像识别任务(对象、活动、场景等)的深度学习的成熟度。因此,目前在VQA上的大多数工作都是由计算机视觉社区的工具和方法构建的。文本问题的回答传统上是在自然语言处理社区中通过不同的方法和算法来解决的。从NLP到最近的研究VQA中有许多概念,例如单词嵌入、句子表示、递归神经网络处理等。一些显著的成功可归因于这两个领域的共同努力。我们相信,仍然有潜力更好地利用NLP的概念来解决VQA中的挑战。语言模型可以在大量的最低限度标记的文本上进行训练,独立于视觉数据。然后,它们可以用于VQA系统的输出阶段,以生成自然语言中的长答案。类似地,语法解析器可以单独在文本上进行预训练,并用来更有原则地处理输入问题。

6. Conclusion

本文对视觉问题的回答技术进行了全面的回顾。我们回顾了最流行的方法,它将问题和图像映射到一个公共特征空间中的向量表示。我们描述了建立在这个概念上的其他改进,即注意机制、模块化和内存增强架构。我们回顾了越来越多的可用于训练和评估VQA方法的数据集,强调了它们所包含的问题的类型和难度的差异。除了描述性综述外,我们还为未来的研究确定了一些有前途的方向。特别是,我们建议扩大从结构化知识库中包含额外外部知识的范围,并继续探索自然语言处理工具的潜力。我们相信,在这些特定的点上正在进行的和未来的工作将有利于VQA的具体任务以及视觉场景理解的一般目标。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值