智能革命的“数据引擎“:海内外爆款大模型训练库全景图鉴

海外主要大语言模型数据集

在评估大语言模型的性能时,参数量与数据量是至关重要的衡量指标。自 2018 年起,大语言模型训练所使用的数据集规模呈现出持续增长的态势。2018 年诞生的 GPT-1,其数据集约为 4.6GB;到了 2020 年,GPT-3 的数据集规模已扩展至 753GB;而在 2021 年,Gopher 模型的数据集更是达到了惊人的 10,550GB。总体而言,从 GPT-1 到 LLaMA 等大语言模型的数据集,主要涵盖维基百科、书籍、期刊、Reddit 链接、Common Crawl 以及其他类型数据集这六大类别。

数据集 #1:维基百科

维基百科作为一个免费的多语言协作在线百科全书,致力于打造覆盖全球所有语言的自由知识宝库,由超过三十万名志愿者组成的庞大社区共同编写与维护。截至 2023 年 3 月,维基百科已拥有 332 种语言版本,条目总数高达 60,814,920 条。其中,英文版维基百科包含超过 664 万篇文章,拥有超过 4,533 万个用户。维基百科中的文本极具价值,其内容不仅经过严格引用,以清晰的说明性文字呈现,还跨越了众多语言和领域。通常情况下,重点研究实验室会优先选取其纯英文过滤版本作为数据集使用。

数据集 #2:书籍

书籍类数据集主要用于训练模型的故事叙述能力和反应能力,涵盖小说和非小说两大类别。相关数据集包括 Project Gutenberg 和 Smashwords(Toronto BookCorpus/BookCorpus)等。Project Gutenberg 犹如一座拥有 7 万多本免费电子书的图书馆,收藏了众多世界经典文学作品,尤其是美国版权已过期的古老著作。而 BookCorpus 则以作家未出版的免费书籍为基础,这些书籍均来自世界上最大的独立电子书分销商之一 Smashwords。

数据集 #3:期刊

期刊类数据可从 ArXiv 和美国国家卫生研究院等官方网站获取。预印本和已发表期刊中的论文,为数据集奠定了坚实且严谨的基础,这是因为学术写作往往具有更强的条理性、逻辑性和细致性。ArXiv 是一个免费的分发服务平台和开放获取的学术档案库,收录了物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程与系统科学以及经济学等多个领域的 2,235,447 篇学术文章。美国国家卫生研究院作为美国政府负责生物医学和公共卫生研究的核心机构,支持着各类生物医学和行为研究领域的项目,通过其官网的 “研究 & 培训” 板块,能够获取到最新的医学研究论文。

数据集 #4:WebText(来自 Reddit 链接)

Reddit 链接堪称流行内容的重要风向标。Reddit 是一个集娱乐、社交及新闻于一体的综合性网站,注册用户可以在平台上发布文字或链接,使其成为了一个活跃的电子布告栏系统。WebText 是一个大型数据集,其数据是从社交媒体平台 Reddit 的所有出站链接网络中抓取而来,并且每个链接至少获得三个赞,这一特性使其能够精准反映流行内容趋势,对输出优质链接和后续文本数据具有重要的指导意义。值得关注的是,Reddit 已宣布将向使用其 API 训练 AI 聊天机器人的公司收取数据使用费,微软、谷歌、OpenAI 等公司均在收费对象之列。虽然目前具体收费标准尚未公布,但预计将根据不同使用者制定分级收费策略。事实上,许多公司早已意识到数据的巨大价值,例如图片托管服务商 Shutterstock 已将图像数据出售给 OpenAI,推特也计划针对 API 使用收取数万到数十万美元不等的费用。

数据集 #5:Common crawl/C4

Common crawl 是自 2008 年以来持续积累的大规模网站抓取数据集。作为一家非营利组织,Common crawl 致力于为互联网研究人员、企业和个人免费提供互联网副本,以支持相关研究和分析工作。其数据涵盖原始网页、元数据和文本提取内容,文本包含 40 多种语言,并涉及多个领域。重点研究实验室通常会优先选用其纯英文过滤版(C4)作为数据集。

其他数据集

  • The Pile 数据集:这是一个规模达 825.18GB 的英语文本数据集,常用于训练大规模语言模型。The Pile 由 ArXiv、WebText、Wikipedia 等在内的 22 个不同的高质量数据集组合而成,既包含已有的成熟自然语言处理数据集,也纳入了几个新引入的数据集。除了用于训练大型语言模型,The Pile 还可作为评估语言模型跨领域知识掌握和泛化能力的重要基准。
  • 其他类型数据集:此外,还包括 GitHub 等代码数据集、StackExchange 等对话论坛数据集以及视频字幕数据集等,这些丰富多样的数据集为大语言模型的训练提供了更广泛的知识来源。

海外主要多模态数据集

模态是事物的一种表现形式,多模态通常包含两个或两个以上的模态形式,常见的有文本、图像、视频、音频等。多模态大模型的训练需要更为复杂的网络架构和规模庞大的数据集进行预训练。在过去的几年中,多模态大模型的参数量及数据量均实现了显著提升。例如,2022 年 Stability AI 发布的 Stable Diffusion 数据集,包含 58.4 亿图文对 / 图像,规模是 2021 年 OpenAI 发布的 DALL-E 数据集的 23 倍。

类别 #1:语音 + 文本

SEMAINE 数据集是为构建敏感人工侦听器(SAL)代理而创建的大型视听数据库,该代理旨在实现与人类进行持续且富有情感的对话。高质量的录音由五台高分辨率、高帧率摄像机和四个同步录制的麦克风共同完成。数据集共收录了 150 名参与者与单个 SAL 角色的 959 次对话,每次对话时长约为 5 分钟。这些录音经过转录和详细注释,每个剪辑由 6 - 8 名评分者对 5 个情感维度和 27 个相关类别进行追踪标注。

类别 #2:图像 + 文本

  • COCO 数据集:MS COCO 全称为 Microsoft Common Objects in Context,起源于微软在 2014 年出资标注的同名数据集,与 ImageNet 竞赛一样,在计算机视觉领域具有极高的关注度和权威性。COCO 数据集是一个大型且内容丰富的物体检测、分割和字幕数据集,包含 91 类目标、328,000 张图像和 2,500,000 个 label。
  • Conceptual Captions 数据集:这是一个图像标题注释数据集,其包含的图像数量比 MS - COCO 数据集多出一个数量级,并且涵盖了更为广泛的图像和图像标题风格。这些数据是通过从数十亿个网页中提取和过滤图像标题注释获得的。
  • ImageNet 数据集:基于 WordNet 结构构建的大规模图像本体。其目标是使用平均 5,001,000 张干净的全分辨率图像填充 WordNet 的 80,000 个同义词集中的大部分。目前,ImageNet 包含 12 个子树、5247 个同义词集,图像总数达 320 万张。
  • LAION - 400M 数据集:LAION - 400M 通过从 CommonCrawl 中提取 2014 - 2021 年随机抓取网页中的图片和文本内容构建而成。通过 OpenAI 的 Clip 计算,去除了原始数据集中文本和图片嵌入之间预先相似度低于 0.3 的内容,最终提供了 4 亿个初筛后的图像文本对样本。
  • LAION - 5B 数据集:该数据集包含 58.5 亿个经过 CLIP 过滤的图像 - 文本对,规模是 LAION - 400M 的 14 倍,是目前世界上规模最大的多模态文本图像数据集,数据总量达 80T。同时,还提供了色情图片过滤、水印图片过滤、高分辨率图片、美学图片等多个子集和模型,以满足不同方向的研究需求。
  • Language Table 数据集:由人类收集整理的数据集,是开放词汇视觉运动学习的多任务连续控制基准。
  • IAPR TC - 12 数据集:该基准的图像集合包含从世界各地拍摄的 2 万张静态自然图像,涵盖了各种类型的静态自然场景,包括不同运动和动作的照片,以及人物、动物、城市、风景和当代生活等多个方面。每张图片均配有最多三种语言(英语、德语和西班牙语)的文本标题。
  • AVA 数据集:用于美学质量评估的数据库,包含 25 万张照片。每张照片均附有一系列评分、60 类语义级标签和 14 类照片风格标签。
  • OpenViDial 数据集:基于人们交谈时话语内容与所见视觉环境密切相关这一特点构建的大型多模块对话数据集。其中的对话回合和视觉环境均提取自电影和电视剧,每个对话回合都与相应的视觉环境精准匹配。版本 1 包含 110 万个对话回合和 110 万个存储在图像中的视觉上下文;版本 2 规模更大,拥有 560 万个对话回合和 560 万个视觉上下文。

类别 #3:视频 + 图像 + 文本

YFCC100M 数据集包含 1 亿个媒体对象,其中约 9920 万张为照片,80 万个为视频,所有媒体对象均带有创作共用许可。数据集中每个媒体对象均由 Flickr 标识符、所有者名称、相机信息、标题、标签、地理位置、媒体源等多块元数据进行描述。该数据集完整呈现了从 2004 年 Flickr 成立到 2014 年初,照片和视频的拍摄、描述和分享情况。

类别 #4:图像 + 语音 + 文本

CH - SIMS 数据集是中文单模态和多模态情感分析数据集,包含 2,281 个精细化的野外视频片段,既提供多模态注释,也提供独立单模态注释,方便研究人员研究模态之间的相互作用,或利用独立单模态注释开展单模态情感分析研究。

类别 #5:视频 + 语音 + 文本

  • IEMOCAP 数据集:由南加州大学语音分析与解释实验室(SAIL)收集的 “交互式情感二元动作捕捉数据库”。该数据库记录了 10 位演员在面部、头部和手部的二元会话,标记信息详细记录了他们在脚本和自发口语交流场景中的面部表情和手部动作,语料库数据时长约 12 小时。其详细的动作捕捉信息、能够激发真实情绪的交互设置以及较大的数据规模,使其成为研究和建模多模态、富有表现力的人类交流的重要补充资源。
  • MELD 数据集:收录了电视剧《老友记》1,433 个对话中的 13,708 个话语。相较于其他对话式情绪识别数据集 SEMAINE 和 IEMOCAP,MELD 具有显著优势,它由多方对话组成,且话语数量几乎是前两者的两倍。MELD 中的话语呈现多模态形式,包括音频、视觉和文本。

海外主要大模型数据集的发布方

海外主要开源大模型数据集的发布方主要分为以下几类:

  1. 非营利组织 / 开源组织:古腾堡文学档案基金会发布的 Project Gutenberg,截至 2018 年已收录 57,000 部书籍,且平均每周新增 50 部。Common Crawl 定期抓取网络数据,并免费向公众开放其档案和数据集,通常每月完成一次抓取工作。艾伦人工智能研究所分别于 2017 年、2018 年和 2019 年发布了基于维基百科的 TriviaQA、QuAC、Quoref 数据集。Eleuther AI 发布了 825GB 的多样化文本数据集 The Pile。LAION 在 2021 年发布了包含 4 亿图文对的 LAION - 400M 数据集,2022 年又发布了包含 58.5 亿图文对的 LAION - 5B 数据集。
  1. 学术界:例如多伦多大学和麻省理工学院联合发布了 BookCorpus 数据集。
  1. 互联网巨头研究部门:Google Research 发布了 C4 文本数据集、AVA 和 Conceptual Captions 等图像数据集。
  1. 政府机构:政府机构是常见的数据集发布主体,其发布的数据通常涉及经济、医学等领域。如美国国家卫生研究院发布的 MedQuAD,包含从 12 个 NIH 网站创建的 47,457 个医学问答对。
  1. 多种类型机构合作:尤其是学术界与互联网巨头研究部门、开源组织之间的合作较为常见。例如 Facebook、伦敦大学学院和 DeepMind 联合发布了 ArxivPaper 数据集;卡内基梅隆大学、雅虎研究院和 International Computer Science Institute 联合发布了 YFCC100M 数据集 。

中国大模型如何构建数据集

#1:LLM(大语言模型)

我们选取了在论文中详细阐述预训练数据集构建方法的三个大语言模型,对中国大模型预训练数据集的来源进行研究后发现:一方面,与海外大语言模型类似,中国大语言模型的预训练数据集也主要来源于互联网抓取数据(如 Common Crawl、中文公共社交媒体抓取数据等)、网络百科全书(如百度百科、搜狗百科)、书籍等;另一方面,充分利用已有的高质量开源数据集,例如对 Common Crawl 等进行二次处理和优化。

  • 百度 Plato - XL 大模型:百度于 2021 年发布 PLATO - XL,包含中英文两个对话模型,预训练语料规模达到千亿级 token,模型规模高达 110 亿参数。其预训练语料库中,英语会话样本提取自 Reddit 评论,这些评论由第三方收集并在 pushshift.io 上公开发布,且经过了与 PLATO - 2 相同的精心清洗过程;中文预训练数据则来源于公共领域的社交媒体,经过过滤后,训练集中包含 1.2 亿个样本。
  • 华为盘古大模型:华为在 2021 年推出盘古大模型,这是业界首个拥有 2000 亿参数、以中文为核心的预训练生成语言模型。目前已开源盘古 α 和盘古 α 增强版两个版本,并支持 NPU 和 GPU 两种版本,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现出色,具备较强的少样本学习能力。
  • 腾讯 WeLM 大模型:腾讯于 2022 年发布 WeLM,其数据来源主要包括三个部分:一是 2020.08 至 2022.01 期间 Common Crawl 的文本内容,通过 langdetect 工具过滤掉非中文文本;二是特定领域语料库,混合了新闻、书籍、流行在线论坛以及学术著作等来源的中文数据;三是添加了从上述来源收集的约 750GB 英语数据。针对数据中存在的大量噪音,如无意义文本、模板文本、冒犯性语言、占位符文本和源代码等,首先采用基于规则的过滤器进行处理,然后手动构建好坏数据分类器,以提升数据清理的泛化能力。

#2:多模态大模型

通过选取在论文中详细说明预训练数据集构建方式的三个多模态模型进行研究,发现网页抓取、自有数据和开源数据集是中国多模态大模型数据集的重要来源:

  • 网页抓取图文对:例如阿里 M6 大模型、百度 ERNIE - ViLG 大模型均从网页中抓取文本 - 图片对,并经过一定的过滤处理,使其成为最终数据集的组成部分。
  • 自有数据:阿里 M6 大模型利用来自电商的图文数据,百度 ERNIE - ViLG 大模型从内部图像搜索引擎收集查询文本和对应的用户点击图像。
  • 开源数据集:百度 ERNIE - ViLG 大模型的部分图文对数据来源于开源的 CC 和 CC12M,并通过百度翻译 API 进行翻译处理。
  • 阿里 M6 大模型:2021 年发布,参数规模达 1000 亿。阿里构建了目前最大的中文多模态预训练数据集 M6 - Corpus,包含超过 1.9TB 图像和 292GB 文本,涵盖百科全书、问答、论坛讨论、产品说明等多种类型数据集。在数据清洁方面,对于文本数据,删除 HTML 标记、重复标点符号,仅保留中文和英文字符及标点,去除短于 5 个字符的标题和短于 15 个字符的文本内容,使用 “内部垃圾邮件检测器” 筛除包含政治问题、色情或脏话等不当内容的句子,并通过语言模型评估文本困惑度,剔除困惑度高的句子;对于图片数据,仅保留像素超过 5000 的图像用于预训练。
  • 百度 ERNIE - ViLG 大模型:2021 年发布,参数规模为 100 亿。百度构建了由超过 1.45 亿对高质量中文图像 - 文本对组成的大规模图像 - 文本数据集,数据来源包括:从各类中文网页抓取 8 亿对原始中文替代文字描述和图片,经文本长度、内容及图像 - 文本相似度等过滤规则处理后,得到 7000 万对文本 - 图片;从内部图像搜索引擎收集约 6000 万个查询文本和相应的用户点击图像;从 CC 和 CC12M 收集 1500 万文本图像对,并通过百度翻译 API 将字幕翻译成中文。
  • InternVideo 大模型:由上海人工智能实验室等多家机构于 2022 年联合发布,使用了 6 个来自不同领域的开源数据集和自采视频片段构建数据集。

中国开源数据集 #1:大语言模型数据集

近年来,中国在大语言模型开源数据集领域不断发力,众多机构积极投入研发,推出了一系列具有影响力的数据集,有力地推动了语言模型的发展。

  • DuReader 数据集:由百度于 2018 年发布,是国内极具代表性的大规模开放域中文机器阅读理解数据集。该数据集由 20 万个问题、42 万个答案以及 100 万篇文档构成,堪称当时规模最大的中文 MRC 数据集。其问题和文档主要源于百度搜索与百度知道,答案均经过人工精心生成。此外,该数据集还提供了细致的问题类型注释,每个问题都被准确标注为实体、描述、是否以及事实或意见类别之一,为机器阅读理解研究提供了丰富且精准的数据支持。
  • WuDaoCorpora 数据集:2021 年,北京人工智能研究院携手清华大学和循环智能共同发布了 WuDaoCorpora 数据集。作为北京智源研究院精心打造的高质量数据集,悟道文本数据集通过 20 多种严格的数据清洗规则,从海量的 100TB 原始网页数据中筛选得出。它高度重视隐私数据保护,从源头上杜绝了类似 GPT - 3 的隐私泄露风险。该数据集涵盖教育、科技等 50 多个行业的数据标签,能够为多领域预训练模型的训练提供广泛且专业的知识基础。
  • CLUECorpus2020 数据集:CLUE 于 2020 年发布的 CLUECorpus2020,是一个可直接应用于语言模型预训练或语言生成等自监督学习任务的大型语料库。其原始语料库达 100G,包含 350 亿个汉字,这些语料均采集自 Common crawl,为语言模型学习中文语言规律和语义表达提供了充足的数据资源。
  • CAIL2018 数据集:在法律领域,2018 年由清华大学、北京大学、中国科学院软件研究所和中国司法大数据研究院联合发布的 CAIL2018 意义重大。它是国内首个大规模的中国法律判决预测数据集,收录了中国最高人民法院公布的 260 万件刑事案件,规模远超当时其他同类数据集。其对案件判断结果的注释极为详细,涵盖适用的法律条款、指控内容和刑期等,基于案件事实描述构建,为法律领域的人工智能研究提供了珍贵的数据样本。
  • Math23K 数据集:腾讯人工智能实验室于 2017 年推出 Math23K 数据集,专门用于解决数学问题研究。该数据集的数据来源于在线教育网站,抓取了 6 万多个中文数学应用题,其中 23,161 个问题标注了结构化方程和答案,是研究数学问题解决和数学语言理解的重要数据资源。
  • Ape210K 数据集:猿辅导 AI Lab 与西北大学在 2020 年联合发布的 Ape210K 数据集,进一步丰富了数学问题数据集领域。它包含 21 万个中国小学水平的数学问题,规模是 Math23K 的 9 倍。每个问题都附带黄金答案和解题方程式,拥有 5.6 万个模板,是 Math23K 的 25 倍,为数学教育和数学问题求解模型训练提供了更丰富多样的数据。
  • DRCD 数据集:2018 年台达研究中心和台达电子联合发布的 DRCD 数据集,是开放领域的繁体中文机器阅读理解数据集。它包含来自 2108 篇维基百科文章的 10,014 个段落,以及注释者生成的 33,941 个问答对,为繁体中文的自然语言处理研究提供了重要的数据支撑。
  • FCGEC 数据集:浙江大学和华为在 2022 年联合发布的 FCGEC 数据集,专注于语法错误的检测、识别与纠正。作为人工标注的多参考语料库,它由 41,340 个句子组成,主要来源于公立学校语文考试中的选择题,为中文语法研究和语言纠错模型训练提供了专业的数据。
  • E - KAR 数据集:复旦大学、字节跳动人工智能实验室和 BrainTechnologies,Inc. 于 2022 年联合发布的 E - KAR 数据集,聚焦于公务员考试领域。数据集包含 1,655 个中文问题和 1,251 个英文问题,这些问题需要深厚的背景知识才能解答,为相关领域的知识问答和能力测评研究提供了独特的数据。
  • Douban Conversation Corpus 数据集:2017 年由北京航空航天大学、南开大学和微软研究院联合发布的豆瓣会话语料库,包含训练数据集、开发集和基于检索的聊天机器人测试集,其中测试数据包含 1000 个对话上下文,为对话系统的研究和开发提供了真实的对话场景数据。
  • ODSQA 数据集:台湾大学在 2018 年发布的 ODSQA 数据集,是用于中文问答的口语数据集,包含 20 位不同演讲者的三千多个问题,为口语化问答研究和语音交互系统开发提供了宝贵的数据。
  • MATINF 数据集:武汉大学和密歇根大学于 2020 年联合发布的 MATINF 数据集,针对中文母婴护理领域。它是一个联合标注的大规模数据集,数据条目包含问题、描述、类别和答案四个字段,从大型母婴护理 QA 网站收集近 200 万对问答对,经数据清洗后保留 107 万个条目,为母婴护理领域的自然语言处理研究提供了专业且丰富的数据。

中国开源数据集 #2:多模态模型数据集

在多模态模型数据集方面,中国也涌现出众多优秀成果,为多模态人工智能研究提供了关键数据资源。

  • WuDaoMM 数据集:2022 年,清华大学与北京智源人工智能研究院联合发布 WuDaoMM 数据集,它是 WuDaoCorpora 开源数据集的重要组成部分。作为图像和文本的多模态预训练数据,完整数据集包含 6.5 亿对图像和文本,涵盖几千万对强相关数据以及 6 亿对弱相关数据,涉及能源、表情、产业等 19 个大类,为多模态模型学习图文关联和语义理解提供了海量数据。
  • MUGE 数据集:2021 年由清华大学和阿里巴巴联合发布的 MUGE 数据集,围绕图像描述、图像文本检索和基于文本的图像生成 3 种多模态理解和生成任务构建,为相关多模态研究和应用开发提供了针对性的数据支持。
  • Noah - Wukong 数据集:华为诺亚方舟实验室与中山大学在 2022 年联合推出 Noah - Wukong 数据集,这是一个大规模的多模态中文数据集,包含 100 万对图文对。该数据集对图像依据大小和宽高比进行筛选,对文本根据语言、长度和频率过滤,同时充分考虑隐私和敏感词问题,保障了数据的质量和适用性。
  • Zero 数据集:2022 年,北京航空航天大学、清华大学、奇虎 360 人工智能研究所联合发布 Zero 数据集,它是大规模的中文跨模态基准测试数据集。其中,ZERO - Corpus 包含 2.5 亿张图片和 7.5 亿篇文字描述,是目前最大的公共预训练数据集之一,另外五个用于下游任务的人工注释微调数据集中,有两个也是中国跨模式下游任务中规模领先的数据集,为跨模态研究和模型评估提供了全面且优质的数据。
  • COCO - CN 数据集:中国人民大学于 2018 年发布的 COCO - CN 数据集,是对 MS - COCO 的重要扩展和丰富。作为双语图像描述数据集,它通过手动编写的中文句子和标签,为图像标记、字幕和检索等任务在跨语言环境下的研究和应用提供了统一平台。该数据集拥有 20,342 张图片、27,218 个中文句子和 70,993 个标签,推动了跨语言图像理解研究的发展。
  • Flickr8k - CN & Flickr30k - CN 数据集:2017 年,浙江大学和中国人民大学联合发布 Flickr8k - CN 和 Flickr30k - CN 数据集。Flickr8k - cn 为公共数据集,每个测试图像对应 5 个通过手动翻译 Flickr8k 中英文句子得到的中文句子;Flickr30k - cn 是 Flickr30k 的双语版本,其训练 / 有效集采用机器翻译,测试集采用人工翻译,为图像文本关联和跨语言图像研究提供了重要数据。
  • Product1M 数据集:2021 年,北京交通大学、阿里巴巴和中山大学联合发布 Product1M 数据集,这是用于实际实例级检索的大型多模式化妆品数据集之一,包含超过 100 万个图像对,涵盖单产品和多产品两种样品类型,涉及多种化妆品品牌,为图像检索和商品识别等多模态应用研究提供了专业领域的数据。
  • AI Challenger 图像中文描述数据集:该数据集源自 2017 年 AI Challenger,对每张图片均提供五句中文描述,包含 30 万张图片和 150 万句中文描述。数据集涵盖人类关键点检测(HKD)、大规模属性数据集(LAD)和图像中文字幕(ICC)三个子数据集,为图像理解、描述生成等多模态研究提供了丰富的数据资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王国平

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值