NLP相关概念汇总

最近看到很多概念,杂乱无章有点分不清楚,条分缕析来总结一下。

目录

1. XX Learning(XX学习)

对比学习和度量学习都是表示学习的分支。

Curriculum Learning(课程学习)

该概念由Bengio在论文 Curriculum learning(ICML, 2009)中提出,其思想是模仿人类学习过程,引导模型由浅入深地学习。百度的开放域聊天机器人 PLATO-2 就使用了课程学习的思想。

Self-Paced Learning(SPL) 自步学习

课程学习的改进版本,此概念由Kumar et al. 于2010年提出。

Contrastive Learning (对比学习)

近几年对比学习如火如荼,其主要思想是,通过构造正负样本,使得正样本间的距离靠近,负样本间的距离拉远,且负样本间的距离远远大于正样本间的距离。对比学习主要用在无监督和半监督任务中,且为单正例,多负例。

一个好的对比学习系统应该兼顾Alignment和Uniformity,若丢失Alignment,则说明该系统并不能学习到良好的表征;若丢失Uniformity,则说明产生了模型坍塌问题。

相关模型

  • 图像:SimCLR、MoCo、BYOL(Bootstrap Your Own Latent)等
  • 文本:SimCSE、SBert等
  • 多模态:OpenAI的CLIP、百度的BriVL等

相关损失

  • 对比损失(Contrastive Loss):这一损失最早是Yann LeCun于2016年在论文中提出的。当时该损失主要用在孪生网络中。

  • 对比学习损失(Contrastive Learning Loss):该损失中有一个超参数\tau是为了感知负例难度,其值越小,模型关注到的负样本越少,也越困难。当\tau➡0时,模型只关注到距离当前正样本最近的1~2个负样本,该损失便退化成 Triplet Loss.

    • InFoNCELoss

Contrastive Clustering(对比聚类)

将对比学习的思想应用于聚类工作中。

Metric Learning (度量学习)

与对比学习相似,度量学习也是通过构造正负样本,拉近正样本间的距离,拉远负样本间的距离。度量学习主要用于有监督任务中,且为二元组或三元组形式。

  • 二元组损失(Pairwise Ranking Loss):形为(正样本,负样本)的二元组

Pytorch中可直接调用MarginRankingLoss实现

  • 三元组损失(TripletLoss):形为(锚样本,正样本,负样本)的三元组,通常在计算损失之前会有一个三元组采样的过程。

Pytorch中可直接调用TripletMarginLoss实现

Dual Learning (对偶学习)

一种学习范式,利用任务的对偶性强化模型的学习能力。其思想可见于 Auto Encoder,GAN(Generative Adversarial Network)等。

Dual Contrastive Learning(对偶对比学习)

In-Context Learning (ICL,语境学习/上下文学习)

继 Prompt Learning 后提示学习的升级版。

Dictionary Learning (字典学习)

Coupled Dictionary Learning (耦合字典学习)

Example & Learning

以下几种学习方式的区别在于模型训练时使用的标注样本与无标注样本的比例或数量有所不同。

Supervised Learning

Unsupervised Learning

Semi-supervised Learning

Few-example Learning (少样例学习)

few-example是指训练集中包含少量带有标签的样本和大量无标签的样本(类似于半监督学习或弱监督学习,但半监督学习中有标签样本所占比例通常在50%,而少样例学习中有标签样本所占比例通常为1%左右,每个类别中包含3-4个样本)。

Few-shot Learning (小样本学习)

训练集中只包含少量带有标签的样本,而不包含无标签样本。


2. XX LM(XX语言模型)

这些语言模型的思想本质上都是通过在大规模训练语料上,使用合适的损失函数进行训练,得到能够更好地提取文本特征的预训练语言模型。

PLM(Pre-trained Language Model,预训练语言模型)

现在已经是预训练语言模型的天下了,各种预训练语言模型层出不穷,“预训练+微调”的方式成为当今主流。

MLM(Masked Language Model,掩码语言模型)

给定上下文信息,预测文本掩码中的词,提高模型对文本的特征提取能力。

Bert(Bidirectional Encoder Representations from Transformers)

Bert是 Google 推出的预训练语言模型框架,Bert全家桶包括:

相关损失

  • mlm损失

CLM(Cause Language Model,因果语言模型)

给定上文信息,预测文本掩码中的词,提高模型生成的文本的流畅性,一般用于文本生成任务中,如英文预训练模型GPT系列、CTRL等;中文预训练模型CPM、PanGu-等。

GPT(Generative Pre-Training)

GPT 系列是 OpenAI 推出的文本生成预训练语言模型框架,目前已经推出三个版本。第一代 GPT 是第一个应用到文本生成任务中的深度预训练语言模型。

T5(Text-To-Text Transfer Transformer)

T5模型是Google提出的预训练语言模型,其基本思想是:所有的NLP问题都可以定义成“text-to-text”问题,即“输入text,输出text,一个模型干所有”。该模型可以用于文本摘要、机器翻译、智能问答、情感分类,文本分类等下游任务。

值得注意的是,CMU和google brain联手推出的Bert改进版模型XLNet:Generalized Autoregressive Pretraining for Language Understanding将MLM与CLM二者结合,两全其美。

CPM(Chinese Pre-trained Model)

CPM 是在GPT-3的基础上打造的中文预训练语言模型,在词表构建和训练策略上进行了改进。

PanGu-Alpha

同样是一个中文预训练语言模型,模型结构也基本沿用transformer的decoder,并使用并行计算提高训练速度。

SLM(Standard Language Model,标准语言模型)

SLM通常是基于“自回归”(autoregressive)方式来训练P(x),即从左向右,一次预测一个token。


3. XX Network(XX网络)

孪生网络(Siamese Network)

共享权重

伪孪生网络(Pseudo-Siamese Network)

不共享权重

胶囊网络(Capsule Network)

Sigmoid 信念网络(Sigmoid Belief Network,SBN)

自联想神经网络(Auto-Associative Neural Network)


4. XX Embedding(XX嵌入向量)

获取文本在向量空间的表示形式,即对文本进行符号化表示。

Word Embedding(词向量)

Tokenizor(分词器)

获得词向量的前导步骤就是对一段文本进行分词,常见的分词方法如下:

Sentence Embedding(句向量)

5. XX Tuning(XX微调)

为使大规模预训练语言模型更好地适用于下游任务,许多微调相关的研究涌现,部分列举如下:

6. XX任务

CTG(Controllable Text Generation,可控文本生成)

相关模型

CTR(Corrupted Text Reconstruction,受损文本重建)

FTR(Full Text Reconstruction,全体文本重建)

ABSA(Aspect-based Sentiment Analysis,方面级情感分析)

EE(Event Extraction,事件抽取 )

其他

VLP(Vision-Language Pre-training,视觉语言预训练)


总结

上述概念或预训练模型本质上都是为了使得自然语言理解(Natural Language Understanding, NLU)取得更好的效果,以便更好地完成下游任务,或辅助自然语言生成(Natural Language Generation, NLG)任务。

参考资料

  1. 盘点Controllable Text Generation(CTG)的进展
  2. [综述]鹏飞大神的Pre-train, Prompt, and Predict [1]
  3. 一篇综述带你全面了解课程学习(Curriculum Learning)
  4. AAAI 2021 | 基于对比学习的聚类工作
  5. tokenizer简介
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Meilinger_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值