理解BERT:一个突破性NLP框架的综合指南

最新推荐文章于 2024-08-14 09:44:32 发布

磐创 AI

最新推荐文章于 2024-08-14 09:44:32 发布

阅读量1.6k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fendouaini/article/details/102892614

版权

BERT，Google的自然语言处理框架，彻底改变了NLP领域。通过预训练在大规模未标记文本上，BERT实现了深度双向表示，为11个NLP任务创造了SOTA结果。本文详细介绍了BERT的起源、工作原理、从Word2Vec到BERT的发展历程，以及如何在Python中使用BERT进行文本分类。BERT启发了众多后续的NLP模型，如TransformerXL、GPT-2等。

摘要由CSDN通过智能技术生成

概述

Google的BERT改变了自然语言处理(NLP)的格局
了解BERT是什么，它如何工作以及产生的影响等
我们还将在Python中实现BERT，为你提供动手学习的经验

BERT简介

想象一下——你正在从事一个非常酷的数据科学项目，并且应用了最新的最先进的库来获得一个好的结果!几天后，一个新的最先进的框架出现了，它有可能进一步改进你的模型。

这不是一个假想的场景——这是在自然语言处理(NLP)领域工作的真正现实!过去的两年的突破是令人兴奋的。

谷歌的BERT就是这样一个NLP框架。我敢说它可能是近代最有影响力的一个(我们很快就会知道为什么)。

毫不夸张地说，BERT极大地改变了NLP的格局。想象一下，使用一个在大型未标记数据集上训练的单一模型，然后在11个单独的NLP任务上获得SOTA结果。所有这些任务都需要fine-tuning。BERT是我们设计NLP模型的一个结构性转变。

BERT启发了许多最近的NLP架构、训练方法和语言模型，如谷歌的TransformerXL、OpenAI的GPT-2、XLNet、ERNIE2.0、RoBERTa等。

我的目标是给你一个全面的指导，不仅BERT，还有它带来的影响以及如何影响未来的NLP研究。

目录

什么是BERT?
从Word2Vec到BERT:NLP的学习语言表示的探索
BERT如何工作?
使用BERT进行文本分类(Python代码)
超越BERT:NLP的最新技术

什么是BERT?

你可能大概听说过BERT，你看到过它是多么不可思议，它是如何潜在地改变了NLP的前景。但是BERT到底是什么呢?

BERT背后的研究团队是这样描述NLP框架的:

"BERT代表Transformers的双向编码器。它被设计为通过对左右的上下文的联合来预训练未标记文本得到深层的双向表示。因此，只需一个额外的输出层，就可以对预训练的BERT模型进行微调，从而为各种NLP任务创建SOTA结果。"

作为一开始，这听起来太复杂了。但是它确实总结了BERT的出色表现，因此让我们对其进行细分。

首先，很容易理解BERT是Transformers的双向编码器表示。这里的每个词都有其含义，我们将在本文中逐一讨论。这一行的关键是，BERT是基于Transformer架构的。

其次，BERT是在大量未标记文本的预训练，包括整个Wikipedia(有25亿个词!)和图书语料库(有8亿个单词)。

这个预训练步骤是BERT成功背后的一半。这是因为当我们在大型文本语料库上训练模型时，我们的模型开始获得对语言工作原理的更深入和深入的了解。这种知识几乎可用于所有NLP任务。

第三，BERT是"深度双向"模型。双向意味着BERT在训练阶段从目标词的左右两侧上下文来学习信息。

模型的双向性对于真正理解语言的意义很重要。让我们看一个例子来说明这一点。在此示例中，有两个句子，并且两个句子都包含单词"bank":

如果我们仅通过选择左侧或右侧上下文来预测"bank"一词的意义，那么在两个给定示例中至少有一个会出错。

解决此问题的一种方法是在进行预测之前考虑左右上下文。这正是BERT所做的!我们将在本文的后面看到如何实现这一目标。

最后，BERT最令人印象深刻的方面。我们可以通过仅添加几个其他输出层来微调它，以创建用于各种NLP任务的最新模型。

从Word2Vec到BERT:NLP的学习语言表示的探索

"自然语言处理中的最大挑战之一是训练数据的短缺。由于NLP是一个具有许多不同任务的多元化领域，因此大多数特定于任务的数据集仅包含数千或数十万个人标记的训练示例。" – Google AI

Word2Vec和GloVe

通过在大型未标记文本数据上进行预训练模型来学习语言表示的要求始于诸如Word2Vec和GloVe之类的词嵌入。这些嵌入改变了我们执行NLP任务的方式。现在，我们有了嵌

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。