NLP的新时代

最新推荐文章于 2022-06-10 17:50:08 发布

一蓑烟雨任平生

最新推荐文章于 2022-06-10 17:50:08 发布

阅读量602

点赞数

分类专栏：人工智能深度学习与人工智能文章标签： NLP BERT NLP的ImageNet NLP迁移学习 NLP预训练模型

本文链接：https://blog.csdn.net/u013214262/article/details/83049192

版权

人工智能同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

深度学习与人工智能

16 篇文章 2 订阅

订阅专栏

声明：本文后80%转载自http://www.pmtown.com/archives/109304.html，实在是原文精炼，不用我增改一字:P

这是一篇三个月前的文章：《NLP领域的ImageNet时代到来：词嵌入「已死」，语言模型当立》，我就不搬砖了，写得很好，建议大家先看一下。简单说就是作者总结并预言NLP的预训练模型已经可以使用，大家不用再从头训练了，今后就可以像图像领域一样使用迁移学习，快速构建自己的应用。

作者的话言犹在耳，谷歌的BERT就横空出世了！《NLP历史突破！谷歌BERT模型狂破11项纪录，全面超越人类！》

为了方便读者快速理解BERT论文的创新点，我把这篇文章里相关的段落搬过来：

关键创新：预训练任务

与 Peters et al. (2018) 和 Radford et al. (2018) 不同，论文不使用传统的从左到右或从右到左的语言模型来预训练 BERT。相反，使用两个新的无监督预测任务对 BERT 进行预训练。

任务1：Masked LM

从直觉上看，研究团队有理由相信，深度双向模型比 left-to-right 模型或 left-to-right and right-to-left 模型的浅层连接更强大。遗憾的是，标准条件语言模型只能从左到右或从右到左进行训练，因为双向条件作用将允许每个单词在多层上下文中间接地“see itself”。

为了训练一个深度双向表示（deep bidirectional representation），研究团队采用了一种简单的方法，即随机屏蔽（masking）部分输入 token，然后只预测那些被屏蔽的 token。论文将这个过程称为“masked LM”(MLM)，尽管在文献中它经常被称为 Cloze 任务(Taylor, 1953)。

在这个例子中，与 masked token 对应的最终隐藏向量被输入到词汇表上的输出 softmax 中，就像在标准 LM 中一样。在团队所有实验中，随机地屏蔽了每个序列中 15% 的 WordPiece token。与去噪的自动编码器（Vincent et al.， 2008）相反，只预测 masked words 而不是重建整个输入。

虽然这确实能让团队获得双向预训练模型，但这种方法有两个缺点。首先，预训练和 finetuning 之间不匹配，因为在 finetuning 期间从未看到[MASK]token。为了解决这个问题，团队并不总是用实际的[MASK]token 替换被“masked”的词汇。相反，训练数据生成器随机选择 15％的 token。例如在这个句子“my dog is hairy”中，它选择的 token 是“hairy”。然后，执行以下过程：

数据生成器将执行以下操作，而不是始终用[MASK]替换所选单词：

- 80％的时间：用[MASK]标记替换单词，例如，my dog is hairy → my dog is [MASK]

- 10％的时间：用一个随机的单词替换该单词，例如，my dog is hairy → my dog is apple

- 10％的时间：保持单词不变，例如，my dog is hairy → my dog is hairy. 这样做的目的是将表示偏向于实际观察到的单词。

Transformer encoder 不知道它将被要求预测哪些单词或哪些单词已被随机单词替换，因此它被迫保持每个输入 token 的分布式上下文表示。此外，因为随机替换只发生在所有 token 的 1.5％（即 15％的 10％），这似乎不会损害模型的语言理解能力。

使用 MLM 的第二个缺点是每个 batch 只预测了 15％的 token，这表明模型可能需要更多的预训练步骤才能收敛。团队证明 MLM 的收敛速度略慢于 left-to-right 的模型（预测每个 token），但 MLM 模型在实验上获得的提升远远超过增加的训练成本。