NLP(自然语言处理) - Tricks & Dataset 集合

最新推荐文章于 2024-08-07 11:38:54 发布

SaoYear

最新推荐文章于 2024-08-07 11:38:54 发布

阅读量1k

点赞数

分类专栏： NLP Machine Learning Deep Learning

本文链接：https://blog.csdn.net/qq_35509823/article/details/107064916

版权

Machine Learning 同时被 3 个专栏收录

9 篇文章 1 订阅

订阅专栏

NLP

7 篇文章 0 订阅

订阅专栏

Deep Learning

6 篇文章 1 订阅

订阅专栏

前言

这是一篇NLP tricks的集合，在自然语言处理的模型中，有很多优化模型效果的技巧，其中很多技巧已经称为默认设置，不再文章中额外说明。

Weight Average

Weight Average是一种自动集成方式，指的是在最终进行模型测试前，取前面每个checkpoint模型权重的平均值作为最终的测试模型。

Adaptive Embedding

Adaptive embedding 是一种自适应词频的词嵌构建方法，通常用于词表较大的数据集（PTB这种小集就不用了）。这种方法的出发点是词频越高的词往往越容易出现一词多义的现象，同时其本身的含义也越丰富。
同时伴随的一般是一组Cut-off值，这个值将词频分为了几个区间，比如[300000, 60000, 2000]。这时，在不同区间的词有不一样大小的词嵌矩阵。对任意一个词进行词嵌操作，会首先根据不同词频映射为不同大小的词嵌向量，再通过线性映射，统一投影为规定维度大小。如下图所示：
在这里插入图片描述
高频词The和little通过高频词表转化为维度为d的词向量，而低频词dog转化为维度为 $\frac{d}{k^{n-1}}$ 的词向量，而后再将这些向量映射到d维的向量作为输入的token。

Variational Dropout

依据AWD-LSTM给出的解释，Variational Dropout不同于标准的Dropout，在每层，每次传递信息时使用Dropout都会随机生成一个Dropout mask。Variational Dropout会在第一次执行时就确定一个固定的Dropout mask。这个mask只会在下一个mini-batch时改变。

Sampled Softmax

当我们在做语言模型或其他NLP任务时，每一步的输出很有可能是一个词。一般来说，我们输出这个词的策略是在最后一层输出一个词表大小的向量，然后使用softmax函数对这个向量的每一个元素打分，根据打分（或概率）的结果输出这个词。而这样做有一个很大的弊端，就是当词表非常大的时候，我们每一次进行输出都要遍历一遍词表。
Bengio（原文章）提出我们可以针对每个mini-batch汇总一次词表，以减小每次输出时遍历造成的高额运算，这就是Sampled Softmax。

GLUE

GLUE全称为General Language Understanding Evaluation，可以访问其benchmark官网。其中分为了多个任务，以下表格详细说明：

Task name	中文翻译	数据集说明	评估矩阵
CoLA (The Corpus of Linguistic Acceptability)	评估数据集语法接受程度	单句的二分类问题, 判断一个英文句子在语法上是不是可接受的	Matthew’s Corr
SST-2 (The Stanford Sentiment Treebank)	标准情感数据集	单句的二分类问题, 句子的来源于人们对一部电影的评价判断这个句子的情感倾向为 Positive/Negative	Accuracy
MRPC (Microsoft Research Paraphrase Corpus)	微软复述语料库	句子对来源于对同一条新闻的评论判断这一对句子在语义上是否相同	F1/Accuracy
STS-B (Semantic Textual Similarity Benchmark)	语义文本相似度数据	类似回归问题,给出一对句子使用1~5的评分评价两者在语义上的相似程度	Pearson-Spearman Corr
QQP (Quora Question Pairs)	Quara问题对	Quora 上的问题答案数据集, 目的是判断两个来自于Quora的问题句子在语义上是否是等价的	F1 / Accuracy
MNLI (MultiNL - matched/mismached)	多自然语言句型/跨句型匹配	推断两个句子是意思相近, 矛盾, 还是无关	Accuracy
QNLI (Question NLI)	自然语言问题推断	二分类问题, 两个句子是一个QA对正样本为Answer是对应Question的答案, 负样本为不是	Accuracy
RTE (Recognizing Textual Entailment)	文本蕴含识别	二分类问题, 判断两个句子是否意思相近, 但是数据量较少	Accuracy
WNLI (Winograd NLI)	自然语言推理数据集	推断两个句子是意思相近, 矛盾, 还是无关	Accuracy