论文笔记:预训练大模型综述(NLP相关部分)

论文标题:《A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT》

PS:该笔记仅总结该论文中与NLP相关部分,以下序号标注没有问题,对应论文中相应部分。若想了解其他部分(如CV、GL),请阅读原文

一、摘要部分

预训练基础模型(PFMS)是具有不同数据模式的各种下游任务的基础。PFM(例如BERT、ChatGPT和GPT-4)在大规模数据上进行训练,为广泛的下游应用提供合理的参数初始化。
BERT与GPT与传统方法相比具有各自的特点,具体而言:BERT从Transformer中学习双向编码器表示,GPT使用Transformer作为特征提取器,并在大型数据集上训练
最近,ChatGPT表现出来卓越的性能,PFM也为人工智能领域带来重大突破许多研究提出了不同的方法、数据集和评估指标,提高了对更新调查的需求。
本文对文本、图像、图形以及其他数据模式的pfm的最新研究进展、挑战和机遇进行了全面回顾,包含以下几点
1)自然语言处理、计算机视觉和图学习中使用的基本组成部分和现有的预训练方法
2)探讨了用于不同数据模式的高级PFM和考虑数据质量和数量的统一PFM
3)与PFM基本原理相关的研究,如模型效率和压缩、安全性和隐私性
4)PFMs领域的关键启示、未来研究方向、挑战和有待解决的问题
目的:揭示pfm在人工通用智能的可扩展性、安全性、逻辑推理能力、跨领域学习能力和用户友好交互能力方面的研究。

二、正文部分

1、介绍部分

预训练基础模型(PFMs)是人工智能的重要组成部分。PFMs在自然语言处理(NLP)、计算机视觉和图学习(GL)三个主要的领域获得了广泛的研究。PFM是强大的通用模型,在各个领域或跨领域都有效。PFM在大规模语料库的多任务训练中表现出优异的性能,并对其进行微调以适应类似的小规模任务,使快速数据处理成为可能。

1.1 PFMs and Pretraining(基础预训练模型和预训练)

PFMs建立在预训练技术的基础上,该技术旨在使用大量数据和任务来训练通用模型,这些数据和任务可以在不同的下游应用程序中轻松进行微调。当预训练技术应用于NLP领域时,训练良好的语言模型(LMs)可以捕获对下游任务有益的丰富知识,例如长期依赖关系、层次关系等。
此外,预训练在NLP领域的显著优势在于,训练数据可以来自任何未标记的文本语料库,即在预训练过程中可以有无限数量的训练数据。早期的预训练是一种静态技术,如NNLM和Word2vec,但静态方法难以适应不同的语义环境。因此,提出了动态预训练技术,如BERT、XLNet等。基于预训练技术的PFMs使用大型语料库学习通用语义表示。随着这些开创性工作的引入,各种PFMs已经出现并应用于下游任务和应用。
一个很好的PFM应用程序的例子是ChatGPT。ChatGPT是在生成式预训练转换器GPT-3.5(在混合文本和代码的基础上进行训练的)的基础上进行微调的。ChatGPT应用了来自人类反馈的强化学习(RLHF),这已经成为将大型语言模型(LLM)与人类意图相通的一种十分有效的方法。ChatGP的巨大成功可能会导致每种PFMs类型的训练方式的改进,例如强化学习(RL),提示优化(Prompt tuning)以及思维链(COT)。
对于文本,PFMs是一个多用途的大语言模型,用于预测序列中的下一个单词或字符。例如,PFMs可用于机器翻译、问答系统、主题建模、情感分析等。
目前,处理多模态数据(不同类型数据(如文本、图像和音频))的PFMs的增长趋势,称为统一pfm。这个术语指的是统一PFMs。
PFMs具有以下两大优势:
1)仅需要进行较小的微调来增强下游任务上的模型性能
2)可以将pfm应用于与任务相关的数据集,而不是从头开始构建模型来解决类似的问题
未来的工作将重点在于模型效率、安全性与压缩上。

1.2 Contribution and Organization(贡献与组织)

现有的工作并没有对不同领域(如CV、NLP、GL、Speech、Video)和不同方面(如预训练任务、效率、功效和隐私)的PFMs进行全面的综述。所以,该篇文章总结了现有的模型,从传统模型到PFMs,以及这三个领域的最新工作。传统模型强调静态特征学习。动态PFMs对结构进行了介绍,是目前研究的主流。在此基础上,该篇文章进一步介绍了PFMs的一些研究成果,包括其他先进的、统一的PFMs、模型效率和压缩、安全性和隐私性。最后,总结了未来在不同领域的研究挑战和有待解决的问题。还在附录中全面介绍了相关的评估指标和数据集。总结起来,主要贡献如下:
1)对NLP、CV和GL中PFM的发展进行了坚实的最新回顾
2)总结了PFMs在其他多媒体领域(如语音和视频)的发展。此外,还讨论了pfm的前沿问题,包括统一pfm、模型效率和压缩、安全性和隐私性
3)通过对不同任务下各种模式的PFMs的回顾,讨论了超大型模型未来研究的主要挑战和机遇,从而指导基于PFMs的新一代协作和交互智能

2、基础组件部分

PFMs是巨大的神经网络模型,它们都是关于神经信息处理的,具体设计根据不同领域的数据模式和任务需求而有所不同。
Transformer是在许多领域(如NLP和CV)中PFMs的主流模型体系结构设计。
训练大型模型需要有各种数据集进行模型预训练。在训练PFMs之后,应该对模型进行微调,以满足诸如功效、效率和隐私等下游需求。

2.1 Transformer for PFMs(基础预训练模型的Transformer)

Transformer是一种创新的架构,它促进了加权表示知识在不同神经单元之间的传递。它完全依赖于注意力(Attention)机制,不使用循环或卷积架构。Attention机制是Transformer的关键组件,因为它为所有编码的输入表示分配权重,并学习输入数据中最重要的部分。通过对值进行加权和得到输出,并使用查询与对应键的相关性函数计算权重。Transformer利用掩码矩阵来提供一种基于自注意的注意机制,其中掩码矩阵指定哪些单词可以相互“看到”。
对于NLP, Transformer可以帮助解决处理顺序输入数据时的远程依赖问题。由于Transformer结构具有更高的并行、可扩展性,可以驱动PFMs的突破性功能。

2.2 Learning Mechanisms for PFMs (基础预训练模型的学习机制)

学习方法如下:
1)监督式学习
2)半监督学习:它结合了有标签数据和无标签数据来训练模型。其目标是通过利用少量的标注数据和大量的未标注数据,提高模型的性能和泛化能力。
3)弱监督学习:目标是最大限度地利用不完美的数据来构建有效的机器学习模型。
4)自监督学习:自监督学习的基本思想是从数据中提取一些信息作为“标签”,并设计一个任务让模型去预测这些标签。在NLP中,语言模型可以通过预测遮罩字符(类似英语做完形填空)、单词或句子来训练。此外,对比学习(Contrastive Learning)是一种自监督学习方法,旨在通过学习相似样本之间的距离更近、不同样本之间的距离更远来获取有用的特征表示。
5)强化学习:强调通过与环境的交互来学习如何在不同情境下做出决策,以最大化累积奖励。强化学习的核心思想是通过试错的方式,使智能体学会在环境中采取最优的行动策略

2.3 Pretraining Tasks for PFMs(基础预训练模型的预训练任务)

预训练是一个初始化框架,通常需要与微调下游任务一起使用。预训练的特征可以辅助下游任务,提供足够的信息,加快模型的收敛速度。

2.3.1 Pretraining Tasks for NLP(自然语言处理的预训练任务)

根据学习方法的不同,预训练任务可以分为五类:掩模语言建模(MLM)、去噪自动编码器(DAE)、替换Token检测(RTD)、下句预测(NSP)、句子顺序预测(SOP)。RTD、NSP和SOP是对比学习方法,它们假设观察到的样本在语义上比随机样本更相似。
1)Mask Language Modeling (MLM)。MLM在预训练中随机擦除输入序列中的部分单词,并对这些被擦除的单词进行预测。典型的例子有BERT和SpanBERT。
2)去噪自动编码器(DAE)。DAE用于在原始语料库中添加噪声,并使用包含噪声的语料库重构原始输入。BART就是一个代表性的例子。
3)替换Token检测(RTD)。RTD是一个判别任务,用于确定LM是否替换了当前令牌。该任务在ELECTRA中被引入。通过训练模型识别标记是否被替换,模型可以获得语言知识。
4)下句预测(NSP)。为了使模型理解两个句子之间的相关性并捕获句子级表示,引入了NSP任务。PFM从不同的文档中输入两个句子,并检查句子的顺序是否正确。一个典型的例子是BERT。
5)句子顺序预测(SOP)。与NSP不同的是,SOP使用文档中两个连续的片段作为正样本,两个片段的交换顺序作为负样本。pfm可以更好地模拟句子之间的相关性,如ALBERT。

3、自然语言处理中的预训练基础模型(PFMs)

PFM的思想首先在NLP中得到普及,其在大型基准数据集上进行训练,并在主任务数据集上进行微调,以获得能够解决新的类似任务的模型。它同时对词的句法和语义表示进行建模,并根据不同的输入上下文动态地改变多义词的表示。

3.1 Word Representations Methods(单词表示方法)

现有的预训练LM根据词语表示方法主要分为三个分支:
(1)自回归LM:在给定前面元素的情况下预测下一个元素,从而生成完整的序列。GPT采用自监督预训练和监督微调两阶段方法,并使用堆叠Transformer作为解码器。随后,GPT-2并将堆叠的Transformer层数增加到48层。参数总数达到15亿个。GPT-2还引入了多任务学习。GPT-2具有相当大的模型容量,可以根据不同的任务模型进行调整,而不是对它们进行微调。GPT-2也使用自回归LM。因此,它在不显著增加成本的情况下提高了模型的性能。由于单向Transformer缺乏上下文建模能力,GPT-2的主要性能提升来自多任务预训练、超大数据集和超大模型的综合作用。对于特定的下游任务,仍然需要基于任务的数据集进行微调。增加LM的训练规模可以显著提高任务无关性能。因此,开发了GPT-3,其模型大小为1750亿个参数,训练数据量为45Tb。这使它能够表现出良好的性能,而不需要对特定的下游任务进行微调。

(2)语境LM:通过捕捉上下文信息来理解和生成自然语言的模型。BERT使用堆叠的多层双向Transformer作为基本结构,WordPiece作为分词方法。模型输入包括三个部分:词嵌入、段嵌入和位置嵌入。该方法采用双向Transformer作为特征提取器,弥补了ELMO和GPT的缺陷。然而,BERT的缺点也不容忽视。双向Transformer结构并没有消除自编码模型的约束。其大量的模型参数对计算资源较低的设备非常不友好,并且具有部署和应用的挑战性。此外,预训练中的隐藏语言建模会导致模型在微调阶段与输入不一致。大多数PFM需要更多的训练任务和更大的语料库。
针对训练不足的问题,Liu等提出了RoBERTa。它使用更大的批量大小和未标记的数据。此外,该方法对模型进行了较长时间的训练,去掉了NSP任务,增加了长序列训练。在处理文本输入时,与BERT不同的是,采用字节对编码(Byte Pair Encoding, BPE)进行分词。BPE对每个输入序列使用不同的掩码模式,即使输入序列相同。
(3)置换LM:它结合了自回归和自编码模型的优点,通过置换输入序列中的词序来学习更丰富的上下文信息。以BERT为代表的MLM可以很好地实现双向编码。然而,MLM在预训练时使用掩码标记,而在微调时不使用,导致预训练和微调时数据不一致。为了实现双向编码,避免MLM的问题,提出了置换LM。置换LM基于自回归LM,避免了数据不一致的影响。然而,与传统的自回归模型不同,置换LM不再按顺序对序列进行建模。它给出了序列的所有可能排列,以最大化序列的期望对数似然。这样,任何位置都可以利用来自所有位置的上下文信息,使置换LM实现双向编码。最常见的LM排列模型是XLNET和MPNet。XLNET是一种基于置换语言建模方法的PFM,它结合了Transformer-XL中的两项关键技术:相对位置编码和段递归机制。相对的,MPNet结合了掩码语言建模(MLM)和置换语言建模预测标记依赖关系,使用辅助位置信息作为输入,使模型能够查看完整的句子并减少位置差异。这两个模型代表了PFM领域的重大进展
在这三个分支中,词的预测方向和上下文信息是最重要的因素。

3.2 Model Architecture Designing Methods(模型体系结构设计方法)

ELMO采用多层RNN结构。每一层是一个双向LSTM结构,由一个正向LM和一个反向LM组成。取这两个方向的最大似然作为目标函数。与词向量方法相比,ELMO引入了上下文信息,改善了多义问题,但总体上ELMO提取语言特征的能力较弱。
PFMs的应用研究主要有两个方向。
一种是带有微调的pfm(例如BERT):BERT使用Transformer中的双向编码器来预测哪些单词被屏蔽,并确定两个句子是否上下文相关。然而,文档是双向编码的,缺失的令牌是独立预测的,这降低了生成能力。
另一种是带有零/几次提示的PFM(例如GPT):GPT使用自回归解码器作为特征提取器,根据前几个单词预测下一个单词,并使用微调解决下游任务,因此更适合文本生成任务。然而,GPT仅使用前一种词进行预测,无法学习双向交互信息。
与这些模型不同的是,BART(是BART不是BERT,看清楚咯~)是采用编码器-解码器结构的seq2seq模型构建的降噪自编码器。预训练主要包括使用噪声破坏文本和使用seq2seq模型重建原始文本。编码层采用双向Transformer。它采用五种加噪方式:(1)单字掩码;(2)单词删除;(3)跨度掩模;(4)句子重排;(5)文件重排。在编码器部分,序列在输入到编码器之前被屏蔽。然后,解码器根据编码器输出的编码表示和未被屏蔽的序列恢复原始序列。一系列噪声模式的加入使得BART在序列生成和自然语言推理任务中的性能显著提高。

3.3 Masking Designing Methods(掩蔽设计方法)

注意机制首先将关键词聚合为句子向量,将重要句子向量聚合为文本向量,从而使模型对不同的输入给予不同的关注。对于BERT来说,作为一个双向编码LM,输入句子中的任意两个单词都可以看到对方。然而,它阻碍了BERT模型学习NLG(自然语言生成)任务的能力
Joshi等提出了基于RoBERTa的SpanBERT,采用动态掩蔽和单段预训练的思想。同时提出了跨掩码和跨边界目标(SBO)对一定长度的词进行掩码。跨度边界的目标任务是通过两端观察到的标记恢复所有被屏蔽的跨度(标记)。训练阶段使用RoBERTa中提出的动态掩码策略,而不是数据预处理过程中的掩码。与BERT不同,SpanBERT随机覆盖连续文本并添加SBO训练目标。它使用最接近跨度边界的标记来预测跨度,并消除了NSP(Next Sentence Prediction)预训练任务。
BERT和GPT在NLG任务中只能分离训练编码器和解码器,不能进行联合训练。Song等提出了掩码seq2seq预训练模型MASS。在训练阶段,编码器的输入序列被随机掩码为长度为k的连续段,掩码段将通过MASS解码器恢复。UniLM通过为输入数据中的两个句子设计不同的掩码来完成NLG(自然语言生成)模型的学习。对于第一个句子,UniLM使用与Transformer编码器相同的结构,使每个单词注意到其前面和后面的单词。对于第二个句子,每个单词只能注意到第一个句子中的所有单词和当前句子中的前面单词。因此,模型输入的第一个和第二个句子形成了经典的seq2seq模式。

3.4 Boosting Methods(强化促进的方法)

1)提高模型性能:大多数流行的预训练模型都需要大量的预训练数据,这对硬件提出了巨大的要求,使得再训练变得非常困难,并且只能对模型进行微调。为了解决这些问题,出现了一些模型。例如,百度发布的ERNIE Tiny是小型化的ERNIE,它减少了层数,预测速度提高了4.3倍,但准确率略有下降。Lan等人提出ALBERT来降低内存消耗和训练速度。然而,不可否认的是,无论对这些大规模模型进行何种压缩,模型在这些任务中的性能都会急剧下降。在今后的工作中,需要注意高层次语义和语法信息的高效表示和无损压缩。通过使用词嵌入参数分解和层间隐藏参数共享,在不损失性能的情况下显著减少了模型的参数数量。提出了SOP(句子顺序预测)的训练任务,通过预测两句话的顺序来提高训练效果。
2)促进多任务学习:ERNIE(百度)主要由Transformer编码器和任务嵌入两部分组成。在Transformer编码器中,使用自关注机制捕获每个令牌的上下文信息并生成上下文表示嵌入。任务嵌入是一种将不同特征应用于任务的技术。ERNIE 2.0引入了多任务学习,实现词汇、语法和语义的预训练。ERNIE 2.0使用七种不同的预训练任务,涵盖三个方面:词级、句子级和语义级。它采用持续学习的方式,使之前训练任务中的知识得以保留,使模型获得远距离记忆。它使用了Transformer编码器,并引入了任务嵌入,使模型能够在持续学习过程中区分不同的任务。UniLM=使用三个预训练任务:单向LM、双向LM和编码器-解码器LM。通过自注意层掩模机制,可以在预训练阶段同时完成三种目标任务。在训练阶段,UniLM采用SpanBERT提出的小段掩码策略,损失函数由上述三个预训练任务的损失函数组成。为了保持所有损失函数的贡献一致性,三个预训练任务同时进行训练。多任务的建模和参数共享使得LMs在自然语言理解(NLU)和NLG(自然语言生成)任务中具有良好的泛化能力
3)促进不同下游任务:预训练模型往往规模较大,因此如何匹配不同的下游任务也同样重要。已经出现了一些在专门的语料库上训练的预训练模型。Cui等提出了bert -全词掩蔽模型(BERT-WWM)。他们直接使用中文BERT根据原MLM训练随机进行掩码,造成语义信息的丢失。由于汉语没有明确的语言边界,很容易失去重要意义。ZEN等提出的是一种基于BERT的文本编码器,采用N-gram增强性能,有效集成了大量粒度文本信息,收敛速度快,性能好。Tsai等提出了面向序列标注任务的多语言序列标注模型。针对多种低资源语言,采用知识蒸馏方法在词性标注和形态属性预测两项任务上取得了较好的性能。推理时间缩短了27倍。

例:ChatGPT和Bard:ChatGPT是基于PFM GPT-3.5使用RLHF(从人类反馈中学习强化学习)进行微调的。与InstructGPT相比,ChatGPT使用不同的数据收集设置。首先,收集一个包含提示和所需输出行为的大型数据集。该数据集用于通过监督学习对GPT-3.5进行微调。其次,给定经过微调的模型和提示,该模型将生成多个模型输出。标记器给出期望的分数并对输出进行排序,以组成一个比较数据集,该数据集用于训练奖励模型。最后,使用近端策略优化(PPO) RL算法针对奖励模型优化微调模型(ChatGPT)。
另一个PFM是由谷歌开发的Bard 2。Bard是基于对话应用程序的LM (LaMDA)。LaMDA是在Transformer的基础上构建的,Transformer是在1.56T的对话数据和web文本单词上进行预训练的。对于对话式人工智能,安全和事实依据是两个主要挑战,LaMDA应用高质量注释数据和外部知识来源微调的方法来提高模型性能。

3.5 Instruction-Aligning Methods (指令对齐方法)

指令对齐方法旨在让机器学习遵循人类的意图并产生有意义的输出。一般的方法是以监督的方式用高质量语料库对预训练的LM进行微调。为了进一步提高LMs的有用性和无害性,一些研究将强化学习引入微调过程,以便LMs可以根据人类或人工智能的反馈修改它们的响应。监督和强化学习方法都可以利用思维链(通过引导人工智能一步步的思考,如在提示词的最前面加上“Let’s think step by step”)风格的推理来提高人工智能决策的人类判断性能和透明度。
1)监督微调(SFT):SFT是一种成熟的技术,可以解锁知识并将其应用于特定的现实世界,甚至是看不见的任务。SFT模板由输入输出对和一条指令组成。例如,给定指令“将这个句子翻译成英语:”和输入“新办公楼在不到三个月的时间内建成。”,我们希望LM生成目标“The new office building was completed in less than three months”。模板通常是人造的,包括非自然指令和自然指令,或基于种子语料库的引导。
LMs危害的伦理和社会风险是SFT的重要关注点。LaMDA(Google)是迄今为止最大的LM,因此它依赖于众工注释的数据,为在三种对话类别中生成的LaMDA响应提供安全评估:自然、敏感和对抗。规则列表用于进一步的安全微调和评估目的。
2)基于反馈的强化学习:
RL已被应用于增强NLP任务中的各种模型。强化学习是一种将语言生成任务中的不可微目标作为顺序决策问题来优化的有效方法。强化学习也被用于使机器学习与人类偏好保持一致。
InstructGPT提出根据训练好的奖励模型对带有PPO(近端策略优化)的大型模型进行微调,使LMs与人类偏好保持一致,这与ChatGPT采用的方法相同,名为RLHF(从人类反馈中学习强化学习)。
PFM技术的最新突破之一是GPT-4,它采用预训练方法来预测文档中的后续令牌,然后进行RLHF(从人类反馈中学习强化学习)微调。随着任务复杂性的增加,GPT-4在可靠性、创造力和处理更细微指令的能力方面优于GPT-3.5。
DeepMind开发的Sparrow也利用了RLHF(从人类反馈中学习强化学习),降低了不安全和不恰当答案的风险。尽管结合流利性使用RLHF取得了一些有希望的结果,但由于缺乏公开可用的基准和实施资源,该领域的进展受到阻碍,导致人们认为RL是NLP的一种困难方法。因此,最近引入了一个名为RL4LMs的开源库,该库由用于微调和评估基于lm生成的RL算法的构建块组成。除了人类反馈,最新的对话代理之一 —— Claude favors Constitutional AI,其中奖励模型是通过RL从AI反馈(RLAIF)中学习的。批评和AI反馈都是由一组来自“constitution’”的原则所引导的,这是一份简短的原则或指令清单,这是Claude中唯一由人类提供的东西。人工智能反馈的重点是通过反对危险查询来控制输出,使其危害更小
3)思维链:思维链(Chain-of-thought, CoT)提示是一种提高逻辑推理能力的技术,通过提示生成一系列中间步骤,从而得出多步骤问题的最终答案。CoT是一系列中间推理步骤,可以显著提高LLMs进行复杂推理的能力。此外,与不使用CoT相比,使用CoT进行微调的安全性略高。CoT提示是模型规模的一个紧急属性,这意味着它在更大、更强大的语言模型中工作得更好。还可以对CoT推理数据集上的模型进行微调,以进一步增强这种能力并激发更好的可解释性。在CoT提示实验中,向模型提供一个提示,该提示概述了一个多步骤问题:
这个提示可能会提出这样一个问题:“在卖掉100只鸡中的30只和20只猪中的10只之后,一个农民还剩下多少只动物?”然后,模型生成一系列中间推理步骤,例如,“农民还剩下100-30=70只鸡”和“农民还剩下20-10=10头猪”,然后生成最终答案,例如,“农民还剩下70+10=80只动物”。CoT提示已经证明了它在提高llm在各种推理任务(如算术、符号推理和常识)上的性能方面的有效性。提高语言模型对复杂问题的推理能力是一种很有前途的技术。

3.6 Summary(总结)

神经概率LM使用神经网络来估计概率LM的参数,在增加上下文窗口数量的同时减小了模型参数的大小。在神经网络的帮助下,LM不需要改进平滑算法来不断缓解性能瓶颈。由于训练目标是无监督的,所以一个数据量大的语料库就足够训练了。训练过程中的负抽样技术为LM中目标任务的后续研究提供了新的思路。此外,神经概率LM以其良好的表征能力和训练效率促进了下游任务研究的进一步发展。随着预训练LM特别是BERT模型的提出,语言建模的研究进入了一个新的阶段。双向LM所采用的双向LM、隐藏LM和排序LM成功地在更深层次上对自然语言中的语法和语义信息进行了建模。ChatGPT是使用RL的PFM中的另一个里程碑式的工作。PFMs的表征能力在质量上优于神经概率模型。在某些任务中,它甚至超过了人类。

7、预训练基础模型(PFMs)的其他前沿主题

随着预训练模型参数数量的增加,预训练模型需要更多的内存和计算资源。它增加了PFM的培训成本,并限制了它们在资源受限设备上的部署。因此,为了提高预训练模型的效率,PFM从模型效率和模型压缩两方面来提高计算效率。模型效率和压缩是指简化模型参数和结构的冗余。在不影响任务完成程度的情况下,得到了参数更少、结构更简洁的模型。

7.1 Model Efficiency(模型效率)

模型效率致力于探索更有效的预训练方法,以更低的成本预训练大规模pfm。更高效的学习算法需要更有效的训练方法和更高效的模型架构。传统的预训练任务可能效率低下。例如,常用的掩码令牌预测任务要求模型根据上下文预测掩码令牌。然而,样本中的屏蔽令牌通常是输入令牌的一个子集,模型只能从这部分令牌中学习,因此训练效率较低。为了解决这个问题,ELECTRA提出了一个RTD任务,该任务预测每个输入标记是否被其他令牌取代,这使得ELECTRA能够针对所有输入令牌进行训练。除了有效的训练方法外,更高效的架构也可以提高PFMS的效率。对于大多数基于Transformer算法的PFMS,可以通过降低Transformer算法的复杂度来获得更高效的模型体系结构。

7.2 Model Compression(模型压缩)

模型压缩需要较少的计算资源和内存。这是一种减小模型尺寸、提高计算效率的潜在方法。模型压缩策略可分为参数压缩和结构压缩两种方式。
1)参数压缩的方法包括参数剪枝、参数量化、低秩分解和参数共享。参数剪枝是指设计模型参数的评价准则,在一个较大的PFM基础上删除冗余参数。例如,压缩BERT在训练前对BERT进行修剪,同时保持与原始模型相当的性能。
参数量化是将模型参数从32位全精度浮点数量化为低阶数。例如,Q8BERT使用8位量化将参数压缩四倍,对模型性能影响很小。
低秩分解是将一个高维参数向量降维为一个稀疏的低维向量。参数共享是指采用结构化矩阵或聚类方法映射模型参数,减少参数数量。例如,ALBERT使用分解嵌入参数化和跨层参数共享来减少模型中的参数。
2)结构压缩是指网络的压缩和知识的提炼。紧凑型网络是指通过设计一种新的紧凑型网络结构来减少参数和计算量。
知识蒸馏是指通过使用软标签等将知识从较大的教师模型转移到较小的学生模型。例如,DistilBERT使用知识蒸馏方法压缩BERT,将BERT模型的大小减少了40%,同时保留了97%的语言理解能力。

7.3 Security and Privacy(安全和隐私)

pfm中的安全风险、社会偏见和数据隐私成为一个重要的研究课题。Qiu等人认识到深度神经网络可能会受到对抗性样本的攻击,这会误导模型产生错误的预测。由于预训练模型具有良好的可移植性,在NLP、CV和GL中得到了广泛的应用。然而,人们发现预训练模型容易受到对抗性样本的影响。原始输入的微小干扰可能会误导预训练模型产生特定的错误预测。同时,可以通过查询pfm来恢复数据样本,这可能会导致隐私泄露。
1)代对抗样本:对抗性样本来源于图像。由于看不见的变化,图像的对抗性样本很难识别。例如,只修改图像的一个像素。人类不容易检测到这种干扰,而神经网络可以识别出修改后的图像,这是对抗样本的原始目的。一些研究发现,在某些情况下,预训练的LM很容易受到攻击。Jin等通过生成自然对抗样本,成功攻击了BERT、CNN和RNN这三种目标模型,说明目前的语言处理模型在安全性方面还有很大的提升空间。然而,由于语言在自然语言处理中具有明显的离散性,这很难实现。特别是,文本中对抗性样本的生成必须考虑语言特征,以确保样本的语法和流畅性在影响模型输出的同时不会受到损害。例如,通过使用对抗性样本成功地攻击了用于文本分类和蕴意的BERT模型的微调阶段。或通过结合基于语义的词替换方法和基于粒子群优化的搜索算法生成对抗性样本。
2)模型的缺陷:一些不相关的人为因素也会误导PFM做出错误的预测。例如,BERT在推理任务中的性能受到限制,这是由于在数据集中使用了虚假的统计信息,从而破坏了这一属性,从而极大地影响了性能。通过定义了普遍的对抗性触发。当触发器连接到任何输入时,它可以诱导模型生成特定的预测。
3)后门攻击:仍然有许多方法可以利用后门攻击来操纵预训练模型的预测结果。如,有可能构建一个权重中毒攻击,其中注入预训练的权重。经过微调阶段,后门就暴露了。攻击者可以通过注入任意关键字轻松操纵模型预测。NLP中的pfm可以通过修改模型语料库来操纵。新单词或现有单词的“意义”可以通过改变它们的权重参数来控制。
4)防御攻击:human-in-the-loop方法已经被提出并应用于生成更自然、高效和多样化的对抗样本。已经提出了一些防御方法来防御这种攻击。可设计了一个辅助异常检测分类器,并使用多任务学习过程来防御对抗性样本。另一方面,迁移学习中的自定义模型可能会继承PFM中的一些缺陷,如前文提到的对抗性漏洞和后门。为了缓解这一问题,提出了一种相关的模型切片技术,以减少迁移学习过程中的缺陷继承,同时保留来自PFM的有用知识。
5)PFMs中的数据隐私:LLMs和其他PFMs已经在私有数据集上进行了训练。研究人员发现,通过查询大规模的LMs,可以恢复特定的训练样本。例如,攻击者可能获得IRC(互联网中继聊天)讨论和个人身份信息。更糟糕的是,由于大型模型有如此多的参数,PFM很容易记忆或学习私有信息,这使得大型模型比小型模型更容易受到攻击。我们必须在数据处理、模型训练、模型推理和系统部署等所有PFM过程中考虑隐私保护措施,以降低隐私泄露的风险。

8、未来的研究挑战和开放的问题

PFM可以避免从头开始训练模型,这是弱AI向通用AI的突破。目前,由于PFM具有参数大、训练数据量大、计算复杂度高等特点,PFM在技术上还存在许多挑战。下文从数据、基础、模型设计和上下游任务四个方面总结了PFMs未来的研究挑战。同时指出了今后研究方向中有待解决的问题。

8.1 Challenges on Data(数据上的挑战)

大多数预训练数据集是针对单一模式和单一语言的。构建多模态、多语言和图形数据的预训练数据集对PFMs的发展非常重要。针对这些数据的特点,目前存在的技术挑战如下:
1)数据不足:NLP与CV数据较为充足,图模型的预训练研究还处于起步阶段。来自物联网(IoT)的数据将是巨大的,包含丰富的物理世界信息。例如,惯性测量单元传感器数据可以捕获用户的社交活动信息。理论基础、借口任务的各种定义、对比学习的增强型设计都不完善,急需新的研究补充。
2)多模态PFM:多模态pfm的学习需要新的多模态数据集,这就需要建立不同模态之间的数据。因此,多模态数据集的构建也是一个亟待解决的问题。
3)多语言PFM:多语种PFM解决了多语种的资源短缺问题,有助于在质量保证、文本摘要、低资源神经机器翻译等方面实现新的改进。然而,目前的PFM仍然是一个掩模LM。为了提高多机器学习的性能,需要添加一些合适的新任务。此外,多语言词汇量比单语言词汇量大得多,导致需要学习的模型参数急剧增加。

8.2 Challenges on Foundation(基础理论的挑战)

对于PFM来说,理论基础对于建模性能是必不可少的,无论是“黑盒”还是“白盒”方法。研究的基础主要包括理论基础、语义理解和可解释性探索。
1)理论基础不足:CV中的SSL(自监督学习)从NLP中学习经验。没有深刻的理论来支持各种试探性的实验,进一步的探索也没有手册。虽然有一些理论分析试图理解预训练的崩溃或学习表征的泛化能力,但理论基础的缺乏仍然是SSL(自监督学习)头上的巨大乌云。
2)语义理解:这里提出一个问题,即:预训练的LM是学习语言的意思?还是仅仅依靠语料库学习?
许多模型在具有可提取的有用信息的各种数据集上表现良好,其中一些方法甚至超过了人类的水平。然而,在领域数据集或40个相对较小的数据集上,性能很差。模型不能达到更好的稳定性水平,不能匹配不同的下游任务。这意味着该模型不能理解于人类语言意义。

8.3 Challenges on Model Design(模型设计的挑战)

大多数现有的PFM结构都是针对文本、图像和图形进行尝试的。主要的方法是增加数据量,提高计算能力,设计训练程序,以达到更好的效果。如何在数据、计算资源和预测性能之间做出权衡是值得研究的。
1)模型的种类:在模型设计方面有许多尝试,例如在CV领域中基于生成的模型。然而,基于GAN的方法不受欢迎的原因有以下两个:
①鉴别器已经学习了有意义的特征表示,但在训练过程中被遗忘了
②模式崩溃导致发生器以奇异模式输出样本以欺骗鉴别器。
因此,尽管研究人员试图将基于GAN的方法应用于SSL(自监督学习)预训练,但鉴别器的收敛性和生成器的发散性的困难阻碍了这一领域的发展和进步。
2)模型压缩:随着Transformer的广泛应用和预训练模型呈现出普遍增长的趋势,预训练模型的计算复杂度成为人们关注的焦点。由于模型训练对硬件的巨大要求等原因,高门槛使得研究人员很难从头开始训练。BERT-base和GPT-3分别包含约1.08亿个和1750亿个参数。这不利于相关研究工作的开展。在预训练模型压缩方面也有一些研究成果,如ALBERT比BERT-base参数更少,效果更好。改进模型仍然需要强大的计算设备,难以普遍应用。降低高昂的计算成本是未来研究的主要挑战之一。
3)模型鲁棒性(健壮性):尽管许多研究者设计了不同的预训练借口任务,但在大规模计算之前如何设计鲁棒的预训练任务并判断其性能仍然是一个主要问题。此外,如何公平地比较这些提出的方法也是一个大问题。对于NLP,深度神经网络由于其线性特性,容易受到对抗性输入(故意设计的输入数据,这些数据在人类看来与正常数据无异,但能够欺骗模型做出错误的判断或决策。)的影响。
虽然预训练模型在不同的NLP任务上表现良好,但大多数是基于深度神经网络的,通常鲁棒性较差。在CV中,切割和旋转等操作不会改变图像的性质。相反,在文本中添加、删除和替换单词等操作可能会影响文本的语义。因此,如何提高模型在自然语言处理中的鲁棒性是一个技术难题。
4)模型抗攻击:PFMs很容易受到对抗性输入的攻击,这很容易误导模型产生特定的错误预测。在自然语言处理领域,由于语言独特的离散性,给处理带来了困难。因此,目前的pfm在模型抗攻击方面还有很大的改进空间。

8.4 Challenges on Finetuning and Prompt(微调和提示学习的挑战)

NLP领域的预训练模型在大多数上游任务中都能获得良好的性能,但在下游任务中,由于微调和提示,并不是很好。如何在上游和下游任务上取得一致的结果仍然是PFMs面临的一个挑战。
1)饱和现象:Google Research观察到上下游任务之间的非线性关系。上游任务上的数据越多,训练精度越高,目标下游任务上的性能不一定就越好。这一观察结果挑战了对预训练过程最直观的理解。即使在最极端的情况下,上游和下游的表现也是不一致的。
2)预训练任务:有太多的自我监督任务,也被称为预训练任务。预训练任务和下游任务之间的关系很难匹配。

8.5 Open Problems for Future PFMs(开放性问题)

1)所有的SOTA(当前最佳技术或方法的模型)统一模型都主要关注语言、视觉和语言视觉任务,而忽略了图在数据领域的重要性。
2)在未来的研究中,统一的主干网架构将会更加流行。可见,仅以大型变压器为骨干的统一PFM模型,即单Transformer模型,比其他类型的统一PFM更受研究人员的关注
3)统一的PFM有望在所有数据域(包括文本、图像、图形和多模态)的所有不同任务中实现SOTA传输性能。大多数统一的pfm仅在单个数据领域表现出色,而在其他领域的性能则没有竞争力。BEiT-3在视觉和视觉语言任务方面都是一个很好的例子。
4)就RL在pfm中的使用而言,尽管ChatGPT在NLP中建立了里程碑,但CV和GL尚未有重要的研究发表。预计未来将在这方面开展更多的工作。

三、结论部分

本调查主要介绍了NLP、CV和GL的基本组成部分,然后总结了三个领域中用于预训练的现有模型,并从模型结构方面总结了必要的信息。在此基础上,对其他先进统一的模型模型、模型效率与压缩、模型安全性与保密性等方面的研究进行了探讨。最后,提出了PFM研究的主要挑战和有待解决的问题。

A Basic Components(基础组件)

A.1 Basic Components on NLP(自然语言处理的基础组件)
A.1.1 Language Model(语言模型)

随着深度学习的快速发展,LMs越来越适用于NLP模型的预训练。LM可以估计文本中某一段合理性的概率。有两种主要类型的LM:统计LM和神经网络LM。
1)统计LM是一种从概率和统计的角度来解决自然语言的上下文相关特征的数学模型。统计LMs的核心是确定句子在文本中出现的概率。作为概率LM的理论基础,N-gram模型对后续的LM影响深远。它在LM领域中起着举足轻重的作用。统计LM采用极大似然估计,直观易懂。但仍存在缺乏长期依赖性、参数空间增长过快、数据稀疏等问题。
2)引入神经网络将LM映射到连续空间。神经LMs使用词的分布式表示来模拟自然语言序列。与基于类的N-gram模型不同,神经语言学模型能够识别两个相似的单词,而不会失去将每个单词编码为不同的能力。它可以直接用于NLP任务。进展主要为前向反馈神经网络(FFNN)—>递归神经网络(RNN)—>预训练的LMs
FFNN的结构只包含有限的上述信息,并且对输入序列的长度有一定的限制。因此,RNN LM应运而生。RNN可以接受任意可变长度的输入。当输入窗口移动时,其内部状态机制可以避免重复计算,参数共享进一步减少了模型参数的数量。预训练LM是通过对一些任务进行预训练,得到一组模型参数。利用这些参数初始化模型,然后进行训练,有效地提高了模型的性能。常用的预训练模型有固定嵌入(Word2vec、Glove等)、变量嵌入(LMs嵌入(ELMO)、生成式预训练Transformer(GPT)和Transformer双向编码器表示(BERT)[13]等)。

B Traditional Learning Methods(传统的学习方法)

B.1 Traditional Text Learning(传统的文本学习)

自然语言处理是语言学和计算机科学相结合的研究领域。其主要研究任务包括词性标注、命名实体识别、语义角色标注、机器翻译、问答、情感分析、文本摘要、文本分类、关系提取、事件提取等。LM(语言模型)可以被认为是下游NLP任务的基石。它经历了四个过程:语法规则LM、概率LM、神经网络LM和预训练LM。PFM在大型基准数据集上进行训练,得到能够求解新的相似任务的模型,成为当前LM研究的一个新热点。
词语表征在下游任务中起着重要作用,是自然语言处理的基础。N-gram模型对文本特征进行预处理,并将相邻的N个单词编码为一组,这使得它过度依赖于训练语料库的丰富度。否则很可能出现数据稀疏,计算复杂度会随着n的增加呈指数增长。
神经网络LM (Neural Network LM, NNLM)首次采用词向量的思想,分布式表示的低维词向量可以很好地解决词嵌入带来的离散问题。然而,解决高计算复杂度的问题仍然是一个挑战。
word2vec模型的计算复杂度与选择的窗口大小无关,而是由字典大小和单词向量维决定的。在初始训练后使用词向量嵌入在大型语料库上进行训练,可以显著改善许多下游任务。但是静态词向量的多义问题仍然没有解决,它仍然属于浅LM。因此,迫切需要更有效的模型来更灵活地处理数据集。掌握上下文的高级概念,如多义消除、句法结构等。
Neelakantan等人提出每个词类型学习多个嵌入。Zhou等利用子词信息整合了矩阵两个维度上的特征,丰富了语义。Hui等人基于word2vec中的连续词袋(Continuous Bag Of Words, CBOW),对生成的情感词向量进行微调,得到既包含语义又包含情感倾向的词向量,显著提高了微博情感分类任务的性能。Liu等提出了一种用于机器翻译的分层翻译模型。它采用基于RNN的神经网络LM作为词向量生成模型。Liang等提出了一种基于双层自注意机制的机器阅读理解方法,该模型分为单文档编码器、多文档编码器和答案预测三部分。在单文档编码器中,上下文信息问题用门控循环单元(GRU)模型来表示。Zhang等使用word2vec生成的词向量作为输入,提出了一种独立RNN (INDRNN)和注意机制用于用户意图分类。该模型引入词级注意机制,有效量化领域词汇对意向范畴的贡献。

C PFMs Theory(预训练模型理论)

由于预训练受到了研究界的极大关注,对理论支持解释的调查同样引人注目。在SSL(自监督训练)之前的无监督预训练时代,Erhan等人为学习困难的确认和清晰提供了一些理论解释。此外,一些工作研究了预训练对体系结构深度、模型容量和训练样本数量的影响,并从优化和正则化两个角度论证了预训练的鲁棒性。进一步证明了无监督预训练在下游监督任务中的正则化作用。

C.1 Different Perspectives(不同的角度)

1)预训练任务:假设了一种基于近似条件独立(approximate conditional independence, CI)的机制来连接预训练任务和下游任务的数据分布,这表明预训练任务可以自监督地从未标记的数据中学习表征,从而降低了下游监督任务的样本复杂性。
2)多视角冗余:与标签的非线性最优预测器相比,预训练表示的线性函数仍然具有竞争力。换句话说,当不同的视图提供关于标签的冗余信息时,学习表征的线性函数在下游预测任务中几乎是最优的。

C.2 Different Categories(不同的类别)

1)对比学习:对比学习可以通过类内集中实现竞争边界,从而降低下游任务的样本复杂性,这得益于迁移表征。
2)无对比学习:虽然对比学习通过捕获未标记示例之间的相似性和不相似性,并进一步收敛到代表一般表示的平均局部最优来显示效果,但最近的非对比SSL方法(如BYOL和SimSiam)在没有设计负对比较的情况下也显示了SOTA性能。基于特征空间的分析,Tian等研究了非对比SSL训练的行为,并证明了影响来自于预测器和停止梯度信号。

E PFMs for Reinforcement Learning(强化学习的预训练模型)

预训练学习方法在监督学习领域的成功激发了人们对强化学习(RL)领域的兴趣,以研究相同的范式是否可以适用于强化学习算法。
一般的预训练RL可以包括广泛的方向,如无奖励RL,目标条件RL和RL中的表征学习。预训练过程使状态编码器能够从原始输入中捕获基本结构信息。基于预训练的状态编码器构建RL策略网络,学习微调阶段的下游控制任务。最近的研究表明,无监督、半监督和自监督[386,387学习技术可以极大地提高样本效率和学习效率。具体来说,这个方向大致可以分为以下两类:基于模型的预训练强化学习和类似对比的预训练强化学习。
1)基于模型的预训练强化学习:基于模型的预训练强化学习旨在首先预训练生成World Model以捕获环境的底层结构,然后在微调期间利用World Model作为状态编码器或模拟器。World Models是第一个提出使用简单的变分自编码器(Variational Autoencoder)以无监督的方式学习环境的压缩时空表示,与从头开始训练相比,这大大提高了样本效率。然而,在不了解环境动态的情况下学习World Model可能会导致忽略环境中的一些关键信息。
Dreamer提出通过近似表征、过渡和奖励模型来学习潜在动力学。然后,他们纯粹通过想象在潜在空间中训练强化学习代理,这更有效,因为它带来了更低的内存占用,并且可以并行地快速预测数千个想象的轨迹。此外,DreamerPro提出了一种基于原型表征的无重构方法,以迁移潜在动力学建模中与任务无关的视觉干扰问题。当有复杂的背景干扰时,DreamerPro明显优于以前的SOTA方法。为了验证为现实世界学习精确的世界模型是否有希望, Daydreamer将Dreamer应用于现实世界的物理机器人问题,并从经验上证明了显著的学习效率提高。
2)类似对比的预训练强化学习:类对比预训练RL技术通过使用大量领域外数据预训练状态编码器或使用无监督学习或数据增强技术添加一些辅助损失来提高状态编码器的表示能力。
CURL结合了实例对比学习和MoCo机制(利用一个队列来存储历史数据的特征表示,这些特征表示作为负样本与当前样本进行对比学习,从而提高模型的泛化能力),显著提高了强化学习代理的数据效率。
此外,RAD提出了一种隐式方法,直接在多个增强观察视图上训练RL目标,这在DeepMind Control Suite的某些环境中优于CURL。
与RAD同期,DrQ引入了一个简单的正则化项,它应用图像增强来计算当前和目标Q值。他们证明,将其应用于DQN后,数据效率可以显着提高。DrQ-v2通过在DDPG算法中插入类似的技术,进一步扩展了这种方法来解决复杂的类人运动任务。与此方向正交,表明,在领域外数据上使用监督或无监督方法预训练RL agent的视觉部分可以提高下游RL控制任务的学习效率。
除了确保不同观察视图之间的一致性外,SPR还训练了一个动态模型,该模型强制表示具有时间预测性。基于SPR, SGI提出使用潜在动力学建模、无监督目标条件和逆动力学建模的组合来预训练表征。与以前的方法相比,SGI可以更好地捕捉环境的动态,便于下游RL控制任务的训练

F Evaluation Metrics(评估方法)

1)分类任务:根据标记好的训练文档,确定文档特征和文档类别之间的关系。然后使用学习到的关系模型来确定新文档的类别。
指标包括:①准确率、错误率;②准确率、召回率、F1(准确率、召回率、F1当达到1时,就得到了期望的结果);③Micro-F1(是衡量所有标签的总体准确性和召回率的指标);④平均倒数秩(MRR)(通常用于评价排序算法在问答(QA)和信息检索(IR)任务中的性能)
2)生成任务:生成任务使用LMs根据输入数据预测下一个最有可能的单词或句子
指标包括:①双语评估替代研究(BELU),用于评价机器翻译的质量。通过比较候选文本中的N-gram与参考文本中的N-gram之间的重叠程度。重叠越高,说明翻译质量越好;②ROUGE (Recall-Oriented Understudy for Gisting Evaluation) ROUGE代表n图共现统计量,用于自动评价方法。其计算方法与BLEU类似,只不过BLEU是基于准确率,而ROUGE是基于召回率;③METEOR,也被称为显式排序翻译评价指标,是BLEU标准的改进版本,旨在解决BLEU标准中的一些缺陷。使用WordNet来计算特定序列、同义词、词根、词缀和定义之间的匹配关系,可以提高BLEU的性能,并使其与手动识别更相关。

G Datasets(数据集)

G.1 Downstream Tasks and Datasets on NLP(原文中有总结表格)

在NLP领域有许多可用的数据集,根据不同的任务进行划分。它主要包括两大类:文本分类任务和生成文本任务。文本分类任务主要包括情感分析(SA)、新闻分类(NC)、话题标注(TL)、自然语言推理(NLI)、命名实体识别(NER)、问答(QA)、对话行为分类(DAC)等。生成任务主要包括文本摘要和机器翻译。

1)情感分析(SA):是一种判断情绪极性并将其分为几类的分析方法。根据情绪粒度的不同,情景分析分为三大类:二分法(积极和消极)、三分法(积极、消极和中性)和多类。以下介绍几个数据集:
① Stanford sentiment treebank (SST):该数据集是MR的扩展。SST-1是SST的一个版本。它分为五类,训练文本和测试文本的数量分别为8,544和2,210。它还由20个平均代币组成。SST-2包含9,613个电影评论,包括6,920个训练文本,872个开发文本和1,821个测试文本。
② Semantic textual similarity benchmark (STS-B) :用于2012年至2017年在SemEval上下文中组织的语义文本相似任务。它由图片标题,新闻标题和论坛的文本组成。STS-B用1到5的等级来显示两个句子的语义相似度。它包括5,749个训练集,1,379个开发集和1,377个测试集。
③ Multi-Perspective Question Answering (MPQA) :这是一个意见数据集,它有两个类别。它包含了10606个来自各种新闻来源的句子,这些句子都被人工标注了观点和其他私人状态。值得注意的是,正面文章3311篇,负面文章7293篇,每篇文章都没有标签。
④IMDB reviews:该数据集是世界上最权威的电影评论二元情感分类来源。每个类的内容数量相同,可分为训练集和测试集,平均评论数为25000条。

2)新闻分类(NC):NC便于用户实时获取必要的知识。其应用主要包括新闻话题识别和基于用户兴趣的相关新闻推荐。以下介绍几个数据集:
① 20 Newsgroups (20NG): 20NG是一个来自新闻组的文本数据集。共有20个类,每类文章数相同,共18846篇。令牌的平均数量为221个。
② AG News:这是一个学术新闻搜索引擎,分为四类。它包含新闻标题和介绍。它包括120,000个培训文本和7,600个测试文本。平均代币的数量是45/7。
③ R8 and R52:来自路透社。R8包含8个类,由66个平均代币组成,包括2,189和5,485个测试和培训课程。R52中有52个类,由70个平均令牌组成。它分为6532和2568个培训和测试文本。

3)话题标注(TL):通过将每篇文章分配到一个或多个主题来简化主题分析。以下介绍几个数据集:
① DBpedia:它是一个大规模的多语言知识库,由维基百科最常用的信息框生成。它每个月都会发布DBpedia,在每个版本中添加或删除类和属性。DBpedia最流行的版本有14个类别,分为56万个训练数据和7万个测试数据。平均代币数量为55个。
②Ohsumed :这是一个生物医学文献数据库。短信的数量是7400条。它有23个心血管疾病类别,由136个平均代币组成。所有文本都是医学摘要,被分类为一个或多个类别。
③Yahoo answers (YahooA):该数据集是一个有10个类别的主题标记任务。平均代币数为136个。有14万个训练数据和5000个测试数据。雅虎的每个文本都有问题标题、问题上下文和最佳答案。

4)自然语言推理(NLI):该任务用于预测是否可以从另一个文本中推断出文本的含义。它通过比较句子对的语义相似度来判断一个句子是否是另一个句子的解释。以下介绍几个数据集:
① The Stanford Natural Language Inference (SNLI) :在非英语语言学习中常用。它包含570,152个人工注释的句子对,这些句子对有三种注释关系:中性、派生和冲突。多类型自然语言推理(Multi-genre Natural Language Inference, MNLI)有3大类,由43万对标注了文本信息的句子对组成,通常用于文本推理任务。问题自然语言推理(Question Natural Language Inference, QNLI),它的任务是确定给定的文本对是否为问答。Winograd自然语言推理(Winograd Natural Language Inference, WNLI)由2个类别组成,是一个捕获两个段落之间标准参考信息的数据集。
② Microsoft Research Paraphrase (MSRP):数据集包含文本相似任务的句子对,包括1,725个训练集和4,076个测试集。二元标签注释每一对,区分它们是否为释义。
③ Sentences Involving Compositional Knowledge (SICK):收录了近10000对英语句子,用相似度标注,量表范围为1-5。它有中性、蕴涵和矛盾三大类。

5)命名实体识别(NER):这是NLP识别文本中的人物、地点、组织和其他实体的基本任务。以下介绍几个数据集:
①CoNLL 2003:它由路透社RCV1语料库中的新闻通讯社文本组成。它包含四种不同的实体类型(Location、Organization、Person和Miscellaneous),包括1,393篇英语新闻文章和909篇德语新闻文章。
②OntoNotes 5.0:数据集由174,5k英文、900K中文和300K阿拉伯文文本数据组成。它来自电话交谈、新闻机构、广播新闻、广播对话和博客。它有18个实体类,包含11种类型、7个值和2,945,000个文本数据。
③MSRA :这是一个从新闻域获得的中文数据集。它有三种类型的实体,早在2006年就被用作SIGNAN上的共享任务。

6)问答系统(QA):有两种类型:抽取式引导系统和生成式引导系统。抽取QA可以看作是文本分类的一个特例。以下介绍几个数据集:
① Microsoft Research Paraphrase Corpus (MRPC):它包含从互联网新闻中提取的5800个句子对,任务类型与QQP数据集相似。句子对是从对同一新闻条目的评论中衍生出来的,并确定两个句子在语义上是否相同。评定标准为分类准确率和F1评分。
② Stanford Question Answering Dataset (SQuAD):这是一个大型机器阅读理解数据集,包含两个任务。SQuAD 1.1[488]提供了问题和对应的答案,数据集共包含10万个样本,SQuAD 2.0[491]增加了未回答的问题,将规模扩大到15万个。
③ RACE:数据集有5个类别,包含近10万个从初中和高中英语考试中提取的问题,并由专家给出相应的答案。RACE文本的平均长度大于300,这比其他阅读理解数据集(如SQuAD)序列要长。

7)对话行为分类(DAC)对话行为是一种特定的言语成分,它根据对话的意义范畴对对话进行标记。DAC根据对话的含义对标签进行分类,以帮助理解说话人的意图。以下介绍几个数据集:
① Dialog State Tracking Challenge 4 (DSTC 4):它属于对话行为分类任务,主要关注人与人之间对话的对话状态跟踪。它分为89个培训课程,包含24,000个培训文本和6,000个测试文本。
②ICSI Meeting Recorder Dialog Act (MRDA):它包括53位说话者在75次自然发生的会议中大约75小时的讲话。类别的数量为5,它包含51,000个训练文本,11,000个测试文本和11,000个验证文本。
③ Switchboard Dialog Act (SwDA):数据集扩展了对话行为标签的回合/话语。标签概括了句子结构,以及相关转折的相关信息和语用信息。SwDA分为43个培训课程,包括1003,000个培训文本,19,000个测试文本和112,000个验证文本。

8)文本摘要:是对给定的单个或多个文档的摘要。它可以分为抽取式总结和生成式总结。摘要提取是通过对文档中的关键句子进行提取和拼接而生成的。生成式摘要是由模型生成的,该模型根据文档中所表达的所需内容对文档进行总结。以下介绍几个数据集:
① NYT:数据集来自《纽约时报》标注的语料库。命名实体使用斯坦福NER工具与Freebase知识库一起进行注释。它包含9,076篇文章,剩余的100,834篇文章分为训练集(96,834个样本)和验证集(4,000个样本)。
② CNN/Daily Mail:它用于基于段落的问答任务,在评估ATS系统中很受欢迎。该数据集由CNN/每日邮报的新闻故事和多句人工生成的摘要组成。总共有287,226个训练实例,13,368个验证实例和11,490个测试实例。
③ Gigaword:这是一个英语新闻章节的数据集,包含近950篇文章。头条新闻——来自多个来源的新闻,包括《纽约时报》——包括一些只有一句话的短新闻提要。

9)机器翻译是指用计算机将一种语言翻译成语义对等的另一种语言的任务。有三类,基于规则的机器翻译,基于统计的机器翻译和基于神经网络的机器翻译。以下介绍几个数据集:
① WMT14:它是第九届统计机器翻译研讨会共享任务中使用的一组数据集,包括新闻翻译任务、质量评估任务、度量任务和医学文本翻译任务。
② WMT16:此数据集是第一届机器翻译共享任务会议中使用的数据集分组。它有十个共享任务,包括一个新闻翻译任务、一个It领域翻译任务、一个生物医学翻译任务、一个自动后期编辑任务、一个度量任务、一个质量评估任务、一个调优任务、一个代词翻译任务、一个双语文档对齐任务和一个多模式翻译任务。
③ WMT17:该数据集包括三个机器翻译任务(新闻、生物医学和多模态)、一个自动后编辑任务、一个质量估计任务、一个专门用于神经机器翻译系统训练的任务、一个关于机器翻译的强盗学习任务、一个自动后编辑任务和一个度量任务。
④ WMT18:主要有六个共享任务:新闻翻译任务、生物医学翻译任务、自动后期编辑任务、度量任务、质量评估任务和多模态翻译任务。参与者必须使用为共享任务创建的标准数据集评估他们对机器翻译主题的方法。

10)对话:作为人机交互的重要方式,具有广泛的应用前景。现有的对话系统可以根据应用场景分为面向任务的对话系统和非面向任务的对话系统。其中,非任务型的对话系统也可以称为聊天机器人。以下介绍几个数据集:
① DSTC2:这是一个餐厅预订字段的多轮对话数据集,包括1612个训练数据、506个验证数据和1117个测试数据。与DSTC1相比,它允许用户的目标发生变化。DSTC2在会话状态表示方面也更丰富,包括用户目标的槽值对以及找到它们的方法。
② MWOZ:它分别包含8,420/1,000/1,000个会话,用于训练集、验证集和测试集。它包含7个领域的30对,是一个多领域全标注语料库。每个示例都包含一个目标、多个用户和代理的话语以及关于槽值的注释。
③ Out-Of-Scope (OOS):数据集分别包括15,100个训练集,3,100个验证集和5,500个测试集。它包含151个意图类,其中包括150个作用域内意图和一个作用域外意图。超出范围的意图表明用户的话语没有按照给定的预定义目标进行分类。

  • 15
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值