NLP进阶之（十一）预训练模型Bert

最新推荐文章于 2024-03-18 12:03:00 发布

Merlin17Crystal33

最新推荐文章于 2024-03-18 12:03:00 发布

阅读量495

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_35495233/article/details/99676113

版权

本文介绍了Bert语言模型的背景和发展历程，从神经语言模型到多任务学习，再到词嵌入和预训练模型。重点讲解了Transformer中的Self-Attention和Multi-Head Attention，以及Positional Encoding在模型中的作用。Bert通过预训练和微调，提高了NLP任务的性能，而Transformer架构的创新，如Self-Attention，改变了序列处理的方式。

摘要由CSDN通过智能技术生成

NLP进阶之（十一）Bert

一、Bert简介

Bert作为近1年来大热的语言模型，必有其可爱之处，学习Bert，是做为每个算法工程师的必备，不仅仅是CV抑或是NLP，依照笔者两段算法实习经验来看，Bert在推荐领域、风控领域都是必不可少的一项工作。
文章在忧郁得茄子文章基础上做个人实践的改动，在读懂Bert前，需要对语言模型的发展有大量的理解，类似的，时间线如下所示：

2001 - Neural Language Models（神经语言模型）
2008 - Multi-task Learning（多任务学习）
2013 - Word Embeddings（词嵌入）
2013 - Nerual NetWorks For NLP（NLP神经网络）
2014 - Sequence-to-Sequence Model（S2S模型）
2015 - Attention（注意力机制）
2015 - Memory-Based NetWorks（基于记忆的网络）
2018 - Pretrained Language Models（预训练语言模型）

我们选择其中较为重点的2001、2008、2013以及2018年来描述，而2014、2015的事件可以在2018年预训练模型提出时被广泛理解。

2001 - 神经语言模型

在这里插入图片描述
Bengio等人于2001年提出的前馈神经网络，如图所示：
$\quad output = P(w_t = i | context)$ 模型从C表词嵌入表中查询n个单词，将这些向量做级联后输入到一个稳定的隐藏层后，后被输入到Softmax层可以做词语预测。

2008 - 多任务学习

多任务学习是多个任务上模型进行参数共享的一种通用方法，在神经网络中，可以通过给不同层施以不同的权重，很容易实现多任务学习。多任务学习的概念最初由Rich Caruana 在1993年提出，并被应用于道路跟踪和肺炎预测（Caruana,1998）。
Rich Caruana 在1993年提出，并被应用于道路跟踪和肺炎预测（Caruana,1998）。在2008年，Collobert 和 Weston 将多任务学习首次应用于 NLP 的神经网络。在他们的模型中，查询表（或单词嵌入矩阵）在两个接受不同任务训练的模型之间共享，如下面的图所示。

在这里插入图片描述

2013 - 词嵌入

Mikolov等人在2013年提出的创新技术是通过去除隐藏层，逼近目标，进而使这些单词嵌入的训练更加高效。虽然这些技术变更本质上很简单，但它们与高效的word2vec配合使用，便能使大规模的词嵌入训练成为可能。
Word2vec有两种风格，如下面的图所示：连续字袋 CBOW 和 skip-gram。不过他们的目标不同：一个是根据周围的单词预测中心单词，而另一个则相反。
在这里插入图片描述

2018 - 预训练语言模型 Bert

预训练的词嵌入与上下文无关，仅用于初始化模型中的第一层。一系列监督型任务被用于神经网络的预训练。相反，语言模型只需要无标签的文本；因此，训练可以扩展到数十亿个tokens, new domains, new languages。预训练语言模型于 2015 年被首次提出（Dai & Le,2015）；直到最近，它们才被证明在各种任务中效果还是不错的。语言模型嵌入可以作为目标模型中的特征（Peters等，2018），或者使用语言模型对目标任务数据进行微调（Ramachandranden等,2017; Howard & Ruder,2018）。
Bert中主要由多个Transformer来组成，而Transformer是由多个encoder以及decoder来组成，而encoder以及decoder所做的事主要是由机器翻译领域（甚至可以说使用简单的对话系统），encoder阶段，第一个节点输入一个词，之后节点输入的是下一个词与前一个节点hidden state，那么encoder会翻译成一个context，可以将其简称为一个c向量。
$\boldsymbol{h}_t = f(\boldsymbol{x}_t, \boldsymbol{h}_{t-1}).$

最低0.47元/天解锁文章

Merlin17Crystal33

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP进阶之（十一）预训练模型Bert

NLP进阶之（十一）Bert一、Bert简介       Bert作为近1年来大热的语言模型，必有其可爱之处，学习Bert，是做为每个算法工程师的必备，不仅仅是CV抑或是NLP，依照笔者两段算法实习经验来看，Bert在推荐领域、风控领域都是必不可少的一项工作。       ...
复制链接

扫一扫

专栏目录