【LLM】大语言模型(LLMs)

大型语言模型(LLMs)

1. 什么是大型语言模型?

大型语言模型(Large Language Model,LLM)是基于深度学习的自然语言处理模型,能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练,学习语言的语法、语义和各种语言特征,从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理:

1.1 定义

大型语言模型是由大量参数组成的神经网络,这些参数通过在大规模的文本数据上进行训练而得来。模型通过捕捉语言中的模式和结构,能够生成与理解上下文相关的自然语言文本。

1.2 基本原理

  1. 神经网络架构:大型语言模型通常采用变体的神经网络架构,如变压器(Transformer),其中最著名的变体之一是GPT(Generative Pre-trained Transformer)。变压器架构通过自注意力机制能够有效地处理长距离依赖关系。

  2. 自注意力机制:自注意力机制使模型能够在处理一个单词时,关注到输入序列中的其他所有单词,从而理解上下文。它计算输入序列中每个词对其他词的注意力权重,捕捉词与词之间的关系。

  3. 预训练和微调

    • 预训练:模型首先在大量无监督的文本数据上进行预训练,任务通常是预测给定上下文中的下一个单词。通过这个过程,模型学习语言的基本结构和规律。
    • 微调:在预训练之后,模型可以在特定任务或领域的数据上进行有监督的微调,以提高其在特定任务上的性能。
  4. 大规模数据和计算:大型语言模型的训练需要大量的文本数据和计算资源。通过在大量的数据上进行训练,模型能够学习到丰富的语言模式和知识。

  5. 生成能力:大型语言模型不仅能够理解文本,还可以生成与输入上下文相关的自然语言文本。生成的文本可以用来回答问题、生成文章、翻译语言等。

2. LLM的发展历史

大型语言模型(LLM)的发展历史反映了自然语言处理(NLP)领域的显著进步,特别是在深度学习和计算能力方面的突破。以下是LLM发展的关键阶段和里程碑:

2.1 早期阶段:统计方法和基础模型

  1. 统计语言模型(20世纪80-90年代):

    • 早期的语言模型主要依赖于统计方法,如n-gram模型,通过计算词序列的联合概率来预测下一个词。这些方法在小规模数据集上有效,但在处理长距离依赖和复杂语法结构时存在局限性。
  2. 词嵌入(2000年代初):

    • 词嵌入(word embeddings)如Word2Vec(2013年)和GloVe(2014年)通过将词表示为向量,捕捉了词与词之间的语义关系。这为后来的深度学习模型奠定了基础。

2.2 深度学习时代:神经网络的应用

  1. 循环神经网络(RNN)和长短期记忆网络(LSTM)(2010年代初):

    • RNN和LSTM能够捕捉序列数据中的时间依赖关系,但在处理长距离依赖时仍存在梯度消失和爆炸问题。
  2. 注意力机制和变压器模型(2017年):

    • Transformer模型由Vaswani等人在论文《Attention is All You Need》中提出。它通过自注意力机制解决了RNN和LSTM在处理长距离依赖时的局限性,使得并行计算和长序列处理更加高效。
    • Transformer模型的出现是LLM发展的关键转折点,极大地提升了NLP任务的性能。

2.3 预训练和微调范式:模型规模的扩展

  1. BERT(Bidirectional Encoder Representations from Transformers)(2018年):

    • BERT由Google提出,通过双向编码器在上下文中学习词的表示。它在多个NLP任务上取得了显著的性能提升,开创了预训练和微调的新范式。
  2. GPT(Generative Pre-trained Transformer)系列

    • GPT-1(2018年):OpenAI提出的第一个GPT模型,展示了生成文本的能力。
    • GPT-2(2019年):通过更大规模的训练数据和参数,GPT-2展示了更强大的文本生成和理解能力。
    • GPT-3(2020年):具有1750亿参数,是当时规模最大、性能最强的语言模型,展示了在广泛任务上的强大性能。

2.4 近期进展:更大规模和多模态模型

  1. GPT-4(2023年)

    • OpenAI发布的GPT-4,在参数规模和性能上进一步提升。它不仅在语言生成和理解上表现出色,还具备更强的推理能力和多模态处理能力。
  2. 多模态模型

    • 近年来,多模态模型(如DALL-E、CLIP)结合了语言与图像等多种数据模式,展示了跨模态生成和理解的能力,拓展了LLM的应用范围。

3. LLM在AI领域的影响

大型语言模型(LLM)在人工智能(AI)领域的影响是深远且广泛的,推动了多个方面的进步和应用。以下是LLM在AI领域的主要影响:

3.1 自然语言处理的革新

LLM显著提升了自然语言处理(NLP)任务的性能,包括但不限于:

  • 文本生成:模型能够生成高质量的文章、故事和代码,广泛应用于内容创作和自动撰写。
  • 机器翻译:提升了翻译系统的准确性和流畅度,缩小了不同语言之间的沟通障碍。
  • 问答系统:改进了智能助手和搜索引擎的回答准确性,使用户能够更方便地获取信息。
  • 文本摘要:有效地从长文档中提取关键内容,为信息提取和知识管理提供了便利。

3.2 推动AI研究和发展

LLM推动了AI研究的多个方面:

  • 模型架构:Transformer等新型架构的出现,为后续的AI模型设计提供了新的思路和方法。
  • 预训练和微调:预训练大规模模型然后在特定任务上进行微调的方法,成为AI模型训练的标准范式,提高了模型的通用性和性能。
  • 大规模数据和计算:推动了高性能计算和大规模数据处理技术的发展,推动了硬件和软件生态系统的进步。

3.3 跨学科应用

LLM的应用超越了传统的NLP领域,扩展到多个学科和行业:

  • 医学和生物信息学:用于医学文本分析、药物发现和基因研究,辅助临床决策和科学研究。
  • 法律和金融:用于法律文档分析、合同生成和金融数据分析,提高工作效率和准确性。
  • 教育和培训:开发智能教学助手,生成学习材料,提供个性化教育内容。

3.4 人机交互的提升

LLM在改善人机交互方面发挥了重要作用:

  • 智能助手:改进了虚拟助手(如Siri、Alexa、Google Assistant)的对话能力,使其更自然、更智能。
  • 聊天机器人:用于客户服务和支持,提供24/7的自动化帮助,提高客户满意度。
  • 个性化推荐:通过分析用户行为和偏好,提供个性化的内容推荐和服务。

3.5 增强创意和创新

LLM在创意领域的应用也展现了巨大的潜力:

  • 艺术和文学:生成诗歌、小说、绘画等艺术作品,激发新的创意和表达方式。
  • 设计和游戏开发:辅助游戏剧情编写和设计,提升游戏体验和内容丰富性。

3.6 社会和伦理影响

LLM的发展也带来了许多社会和伦理问题:

  • 隐私和安全:处理和生成的大规模数据可能涉及隐私问题,需要严格的数据保护和管理。
  • 偏见和公平:模型可能反映和放大训练数据中的偏见,需要研究和解决公平性问题。
  • 就业和自动化:自动化技术可能影响某些职业,需要应对就业市场的变化和挑战。

3.7 新的商业模式和经济影响

LLM推动了新的商业模式和经济增长:

  • SaaS平台:许多企业提供基于LLM的SaaS(软件即服务)平台,供其他公司和开发者使用。
  • 创业和投资:大量创业公司涌现,开发和应用LLM技术,吸引了大量投资。

4. 自然语言处理(NLP)基础

自然语言处理(Natural Language Processing, NLP)是人工智能和计算机科学的一个分支,专注于计算机与人类自然语言之间的互动。NLP的基础涵盖了多个核心概念、技术和任务。以下是NLP的基本概念和关键技术:

4.1 基本概念

  1. 语料库

    • 语料库是用于NLP研究和模型训练的大规模文本数据集合。常见语料库包括新闻文章、书籍、对话记录等。
  2. 标注

    • 对语料库进行标注是NLP的重要步骤,包括词性标注、句法分析、命名实体识别等。
  3. 词汇和语法

    • 词汇:语言的基本单元,包括单词及其形式。
    • 语法:规则系统,定义词如何组合形成句子。

4.2 核心技术

  1. 词表示

    • 词袋模型(Bag of Words, BoW):将文本表示为词的频率向量,忽略词序。
    • TF-IDF(Term Frequency-Inverse Document Frequency):在BoW基础上,衡量词的重要性。
    • 词嵌入(Word Embeddings):如Word2Vec、GloVe,将词表示为密集向量,捕捉语义关系。
  2. 语言模型

    • n-gram模型:基于n个连续词的联合概率进行预测。
    • 神经网络模型:如RNN、LSTM、Transformer,用于捕捉语言中的复杂依赖关系。
  3. 文本预处理

    • 分词:将文本分割为单词或子词。
    • 去停用词:移除高频但无意义的词,如“the”、“is”。
    • 词干提取和词形还原:归一化单词形式,如将“running”转换为“run”。

4.3 关键任务

  1. 文本分类

    • 将文本归类到预定义的类别中,如垃圾邮件分类、情感分析等。
  2. 命名实体识别(NER)

    • 识别并分类文本中的专有名词,如人名、地名、组织名等。
  3. 词性标注(POS Tagging)

    • 为句子中的每个词分配词性标签,如名词、动词、形容词等。
  4. 句法分析

    • 分析句子的语法结构,生成语法树。
    • 依存句法分析:识别词之间的依存关系。
  5. 机器翻译

    • 自动将文本从一种语言翻译成另一种语言。神经机器翻译(NMT)是当前的主流方法。
  6. 文本生成

    • 根据输入生成相关文本,如摘要生成、对话生成、自动撰写等。
  7. 问答系统

    • 根据用户的问题,从知识库或文档中提取并生成答案。

4.4 经典算法与模型

  1. 朴素贝叶斯分类器

    • 基于贝叶斯定理,用于文本分类任务。
  2. 支持向量机(SVM)

    • 用于分类和回归分析,在高维空间中寻找最佳分隔超平面。
  3. 隐马尔可夫模型(HMM)

    • 用于序列标注任务,如POS标注和NER。
  4. 条件随机场(CRF)

    • 高效的序列标注模型,用于NER和POS标注等任务。
  5. 递归神经网络(RNN)和长短期记忆网络(LSTM)

    • 适用于处理序列数据,捕捉长距离依赖关系。
  6. Transformer模型

    • 基于自注意力机制,广泛应用于NLP任务,如BERT、GPT等。

4.5 工具和框架

  1. NLTK(Natural Language Toolkit)

    • 一个Python库,提供丰富的NLP工具和语料库资源。
  2. spaCy

    • 高效的NLP库,适用于生产环境,提供快速的预处理和标注工具。
  3. Hugging Face Transformers

    • 提供预训练的Transformer模型和易用的API,支持各种NLP任务。

5. 机器学习和深度学习基础

机器学习和深度学习是人工智能的两个重要分支,涉及从数据中学习和预测的技术。以下是它们的基础概念和关键技术:

5.1 机器学习基础

5.1.1 定义

机器学习(Machine Learning, ML)是人工智能的一个分支,涉及开发算法和统计模型,使计算机系统能够从数据中自动学习和改进。

5.1.2 类型
  1. 监督学习(Supervised Learning)

    • 模型在带标签的数据上进行训练,学习输入和输出之间的映射关系。
    • 常见算法:线性回归、逻辑回归、支持向量机、k近邻算法、决策树、随机森林等。
    • 例子:图像分类、垃圾邮件检测。
  2. 无监督学习(Unsupervised Learning)

    • 模型在无标签的数据上进行训练,发现数据的内在结构。
    • 常见算法:聚类(如k均值、层次聚类)、降维(如PCA、t-SNE)等。
    • 例子:客户分群、异常检测。
  3. 半监督学习(Semi-Supervised Learning)

    • 结合少量带标签数据和大量无标签数据进行训练。
    • 例子:图像识别中使用部分标注的图片进行训练。
  4. 强化学习(Reinforcement Learning)

    • 通过与环境的交互,学习在不同状态下采取的最佳行动策略。
    • 常见算法:Q-learning、深度Q网络(DQN)、策略梯度方法等。
    • 例子:机器人控制、游戏AI。
5.1.3 关键概念
  1. 特征工程:从原始数据中提取有意义的特征,以提高模型的性能。
  2. 模型评估:使用交叉验证、混淆矩阵、准确率、精确率、召回率、F1分数等指标评估模型的性能。
  3. 过拟合和欠拟合:过拟合是指模型在训练数据上表现很好,但在测试数据上表现不佳;欠拟合是指模型在训练和测试数据上都表现不佳。
  4. 正则化:通过添加惩罚项(如L1和L2正则化)来防止过拟合。

5.2 深度学习基础

5.2.1 定义

深度学习(Deep Learning)是机器学习的一个子领域,基于多层神经网络模型进行学习和预测。它通过多个非线性变换和表示层次来提取数据的特征。

5.2.2 神经网络
  1. 人工神经网络(ANN)

    • 基础结构:由输入层、隐藏层和输出层组成,每层包含若干神经元。
    • 激活函数:如Sigmoid、ReLU、Tanh,用于引入非线性特性。
    • 训练方法:反向传播算法,通过梯度下降优化网络权重。
  2. 卷积神经网络(CNN)

    • 专用于处理图像数据,具有卷积层、池化层和全连接层。
    • 卷积层:通过卷积核提取局部特征。
    • 池化层:进行降维操作,减少参数和计算量。
    • 例子:图像分类、目标检测。
  3. 循环神经网络(RNN)

    • 处理序列数据,具有时间步的记忆能力。
    • LSTM(长短期记忆网络)和GRU(门控循环单元)是RNN的改进版本,解决了长距离依赖问题。
    • 例子:语言模型、时间序列预测。
  4. 生成对抗网络(GAN)

    • 由生成器和判别器组成,生成器生成逼真的数据,判别器区分真实数据和生成数据。
    • 例子:图像生成、风格迁移。
  5. 变分自编码器(VAE)

    • 生成模型,通过编码器将输入数据映射到潜在空间,通过解码器重建数据。
    • 例子:图像生成、数据压缩。
5.2.3 关键概念
  1. 损失函数:衡量模型预测与真实值之间的差距,常见的有均方误差(MSE)、交叉熵损失等。
  2. 优化算法:用于更新模型参数,如梯度下降、Adam、RMSprop等。
  3. 正则化和归一化:防止过拟合的技术,包括Dropout、Batch Normalization等。
  4. 迁移学习:利用在大规模数据上预训练的模型,将其应用于新的任务。

5.3 工具和框架

  1. TensorFlow:由Google开发的开源深度学习框架,广泛用于研究和生产。
  2. PyTorch:由Facebook开发的深度学习框架,因其动态计算图和易用性受到研究者的青睐。
  3. Keras:高级神经网络API,能够运行在TensorFlow、Theano和CNTK之上,简化模型构建和训练过程。
  4. scikit-learn:用于机器学习的Python库,提供了各种算法和工具。

6. 神经网络的基本结构

神经网络是一种模拟生物神经系统的计算模型,由多个相互连接的节点(神经元)组成,用于处理和分析复杂的数据。以下是神经网络的基本结构及其关键组件:

6.1 神经元(Neuron)

  • 结构:每个神经元接收多个输入信号,通过加权求和后传递到激活函数,输出结果。

6.2 层(Layer)

神经网络由多个层组成,每层包含若干个神经元。

输入层(Input Layer)
  • 功能:接收原始数据输入,不进行计算,直接传递到下一层。
隐藏层(Hidden Layer)
  • 功能:进行特征提取和非线性变换。可以有一层或多层,层数越多,网络越深。
  • 非线性变换:通过激活函数引入非线性,使网络能够处理复杂的数据关系。
输出层(Output Layer)
  • 功能:输出最终结果。输出的格式和应用任务有关,如分类任务中的类别概率、回归任务中的连续值。

6.3 激活函数(Activation Function)

  • 功能:将输入信号转化为输出信号,增加网络的非线性能力。
  • 常见激活函数
    • Sigmoid:将输入映射到 (0, 1) 之间。
    • Tanh:将输入映射到 (-1, 1) 之间。
    • ReLU(Rectified Linear Unit):将输入小于零的部分设为零。
    • Leaky ReLU:改进的ReLU,允许输入小于零部分有小的斜率。

6.4 权重和偏置(Weights and Biases)

  • 权重:连接不同神经元的系数,决定了信号传递的强度。
  • 偏置:每个神经元的额外参数,帮助模型更好地拟合数据。

6.5 前向传播(Forward Propagation)

  • 过程:输入数据通过层与层之间的权重传递,经过激活函数,逐层计算直到输出层,产生预测结果。

6.6 损失函数(Loss Function)

  • 功能:衡量模型预测结果与真实结果之间的差距。
  • 常见损失函数
    • 均方误差(MSE):用于回归任务。
    • 交叉熵损失(Cross-Entropy Loss):用于分类任务。

6.7 反向传播(Backpropagation)

  • 过程:通过计算损失函数相对于每个权重和偏置的梯度,使用链式法则,逐层传播误差,从输出层到输入层。
  • 目标:通过调整权重和偏置,最小化损失函数。

6.8 优化算法(Optimization Algorithm)

  • 功能:根据计算的梯度更新权重和偏置,使得损失函数逐步减小。
  • 常见优化算法
    • 梯度下降(Gradient Descent):按梯度方向更新参数。
    • 随机梯度下降(SGD):在每个小批量数据上进行梯度下降,更新更频繁。
    • Adam:结合了动量和自适应学习率,具有较快的收敛速度和较好的性能。

6.9 正则化技术(Regularization Techniques)

  • 功能:防止过拟合,提高模型的泛化能力。
  • 常见方法
    • L2正则化(Ridge Regression):在损失函数中加入权重平方和的惩罚项。
    • Dropout:在训练过程中随机丢弃一定比例的神经元,减少过拟合。

7. Transformer架构

Transformer架构是目前在自然语言处理(NLP)和其他序列建模任务中最先进的方法之一。它引入了注意力机制,特别是自注意力机制,使其能够并行处理序列数据,并有效捕捉长距离依赖关系。以下是Transformer架构的详细结构和关键组件:

7.1 总体架构

Transformer由编码器(Encoder)和解码器(Decoder)两个主要部分组成,每个部分包含若干个堆叠的相同层。

  • 编码器(Encoder)

    • 输入嵌入层(Input Embedding)
    • 位置编码(Positional Encoding)
    • 多头自注意力机制(Multi-Head Self-Attention Mechanism)
    • 前馈神经网络(Feed-Forward Neural Network)
  • 解码器(Decoder)

    • 输入嵌入层(Input Embedding)
    • 位置编码(Positional Encoding)
    • 多头自注意力机制(Masked Multi-Head Self-Attention Mechanism)
    • 编码器-解码器注意力机制(Encoder-Decoder Attention Mechanism)
    • 前馈神经网络(Feed-Forward Neural Network)

7.2 主要组件

输入嵌入层(Input Embedding)
  • 将输入的词序列转换为密集的向量表示。这些嵌入向量是通过查找词嵌入矩阵得到的。
位置编码(Positional Encoding)
  • 因为Transformer不包含循环结构或卷积结构,需要引入位置信息来保留序列顺序。位置编码通过加法操作添加到输入嵌入中,常用的实现方法是正弦和余弦函数。
多头自注意力机制(Multi-Head Self-Attention Mechanism)
  • 自注意力机制:对于每个词,计算它与序列中所有其他词的注意力权重,生成上下文感知的表示。
  • 多头注意力:通过多个注意力头并行计算,捕捉不同的语义关系。每个头有独立的权重,最后将结果拼接并线性变换。
前馈神经网络(Feed-Forward Neural Network)
  • 每个位置独立地应用两个线性变换和一个激活函数(通常是ReLU)。这种前馈网络使得模型具有更强的表示能力。
编码器-解码器注意力机制(Encoder-Decoder Attention Mechanism)
  • 解码器部分的一个多头注意力层,用编码器的输出作为键和值,解码器的输入作为查询,计算注意力分布。

7.3 残差连接和层规范化(Residual Connection and Layer Normalization)

  • 残差连接:在每个子层(如自注意力和前馈网络)中,输入直接加到输出上,有助于训练深层网络。
  • 层规范化:在每个子层之后进行规范化,稳定训练过程。

7.4 Transformer的工作流程

编码器部分
  1. 输入序列通过嵌入层转换为嵌入向量。
  2. 添加位置编码,将嵌入向量传递给多头自注意力层。
  3. 多头自注意力层计算每个词的上下文表示,结果通过残差连接和层规范化传递给前馈神经网络层。
  4. 前馈神经网络层处理后,再次通过残差连接和层规范化。
  5. 多层编码器堆叠,生成编码器输出。
解码器部分
  1. 解码器输入序列通过嵌入层转换为嵌入向量。
  2. 添加位置编码,将嵌入向量传递给掩蔽多头自注意力层(掩蔽防止访问未来信息)。
  3. 掩蔽多头自注意力层计算上下文表示,结果通过残差连接和层规范化传递给编码器-解码器注意力层。
  4. 编码器-解码器注意力层计算解码器输入与编码器输出之间的注意力,结果通过残差连接和层规范化传递给前馈神经网络层。
  5. 前馈神经网络层处理后,再次通过残差连接和层规范化。
  6. 多层解码器堆叠,生成解码器输出。
  7. 解码器输出通过线性层和Softmax层,生成最终的词概率分布。

7.5 优势

  • 并行计算:不依赖序列顺序,可以充分利用GPU加速训练。
  • 长距离依赖:自注意力机制能有效捕捉远距离词语之间的关系。
  • 灵活性:适用于多种序列建模任务,如机器翻译、文本生成、语音处理等。

8. GPT、BERT等模型的介绍

8.1 GPT(Generative Pre-trained Transformer)

8.1.1 概述

  • GPT是一种生成式预训练Transformer模型,由OpenAI开发。
  • 它以无监督学习的方式预训练,通过大量的文本数据学习语言模式。

8.1.2 模型架构

  • 基于Transformer架构的自注意力机制。
  • 仅使用解码器部分,专注于生成任务。
  • 预训练阶段使用语言模型目标(如下一个词预测)。

8.1.3 版本演进

  • GPT-1:首次提出生成式预训练的概念。
  • GPT-2:模型规模和训练数据显著扩大,展示了强大的文本生成能力。
  • GPT-3:拥有1750亿参数,能够执行多种NLP任务,几乎不需要微调。

8.1.4 应用

  • 文本生成、对话系统、自动摘要、翻译、代码生成等。

8.1.5 优点与挑战

  • 优点:强大的生成能力,适应多种任务,几乎不需要微调。
  • 挑战:模型规模大,计算资源需求高,存在生成不一致或偏见问题。

8.2 BERT(Bidirectional Encoder Representations from Transformers)

8.2.1 概述

  • BERT是一种双向编码器表示模型,由Google提出。
  • 通过双向的上下文学习捕捉语言的细微之处,提升了多种NLP任务的性能。

8.2.2 模型架构

  • 基于Transformer架构的自注意力机制。
  • 使用编码器部分,专注于理解任务。
  • 预训练阶段使用掩码语言模型(MLM)和下一句预测(NSP)。

8.2.3 版本演进

  • BERT-Base:110M参数,12层Transformer。
  • BERT-Large:340M参数,24层Transformer。
  • 后续模型:如RoBERTa、ALBERT等,进一步优化BERT的预训练方法。

8.2.4 应用

  • 文本分类、问答系统、命名实体识别、文本相似度计算等。

8.2.5 优点与挑战

  • 优点:强大的理解能力,适用于各种NLP任务。
  • 挑战:预训练时间长,资源消耗大,需要微调才能适应具体任务。

8.3 其他模型

8.3.1 XLNet

  • 结合了自回归模型和自编码模型的优势,使用排列语言模型(PLM)预训练。

8.3.2 RoBERTa

  • 改进了BERT的预训练方法,移除了下一句预测任务,增加了训练数据和训练时间。

8.3.3 T5(Text-to-Text Transfer Transformer)

  • 将所有NLP任务都转换为文本生成任务,通过统一的架构处理多种任务。

8.3.4 ALBERT

  • 对BERT进行参数共享和因子分解,显著减少了模型参数,提高了训练效率。

8.3.5 ELECTRA

  • 引入生成-判别器架构,通过替换词预测任务进行预训练,显著提高了训练效率和性能。
  • 24
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值