【使用 BERT 的问答系统】第 7 章：BERT 模型的未来

Sonhhxg_柒

已于 2022-12-09 10:59:50 修改

阅读量1k

点赞数 5

分类专栏：使用 BERT 的问答系统文章标签： bert 人工智能自然语言处理

于 2022-12-03 09:03:50 首次发布

本文链接：https://blog.csdn.net/sikh_0529/article/details/128103167

版权

使用 BERT 的问答系统专栏收录该内容

7 篇文章 20 订阅

订阅专栏

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎

📝个人主页－Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝

📣系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟👋

文章目录

未来能力

抽象概括

自然语言生成

机器翻译

结论

到目前为止，我们涵盖的主题涉及 BERT 模型的架构和应用。BERT 模型不仅影响了 ML 领域，还影响了内容营销等其他领域。下面我们就来讨论一下BERT的发展和未来的可能性。

未来能力

事实证明，像 BERT 这样基于 Transformer 的 ML 模型对于最先进的自然处理任务是成功的。BERT 是一种大规模模型，仍然是提供最先进准确性的最流行的语言模型之一。

BERT 模型也被谷歌搜索团队用来提高谷歌搜索的查询理解能力。由于 BERT 是一个双向模型，它能够通过查看周围的单词来理解单词的上下文。BERT 特别有助于捕捉搜索查询背后的意图。

BERT 模型自发布以来，影响了基于 BERT 的各种模型的发展。它必须因引入模型而受到赞誉，这些模型不仅包含其名称，还包含其核心架构思想。BERT 的变体能够成功打破各种 NLP 任务的记录，例如情感分析、文档分类、问答等。

下面是一些基于 BERT的模型。

有些模型与应用程序或特定领域的语料库有关。BioBERT就是这样一种在生物医学文本上进行训练的模型。其他示例包括 SciBERT 和 Clinical BERT。与在 BookCorpus 和维基百科上训练的微调 BERT 相比，在下游 NLP 任务上进行微调时，在特定领域的语料库上进行训练已被证明是有用的并且会产生更好的性能。
ERNIE模型将知识融入到预训练中，并使用知识图来屏蔽实体和短语。它在大型语料库上进行了预训练，同时在输入过程中考虑了知识图谱。
TransBERT模型用于使用三阶段无监督训练方法的故事结局预测任务。然后是两个监督步骤。
为了提供医疗建议，G-BERT基本上结合了图神经网络和 BERT 的强大功能。该模型用于医疗代码建议和表示。G-BERT 中具有分层表示的医疗代码编码是在图神经网络的帮助下完成的。
除了预训练模型之外，还有经过微调的模型，如 DocBERT（文档分类）和 PatentBERT（专利分类）。这些模型针对特定任务进行了微调。这些预训练的基于 BERT 的模型可以借助 NLP 任务、POS、NER 等进行微调，以获得更好的结果。

这些模型代表了广泛的基于 BERT 的模型。他们描述了 BERT 模型如何通过预训练或微调的修改进一步用于不同的领域。因此，BERT 为开发在各种任务中有效的其他模型奠定了基础。

依赖 BERT 模型的开发之一是由 Facebook 开发的 RoBERTa，它已被证明在 GLUE 基准测试上非常高效。RoBERTa 使用 BERT 的策略来屏蔽文本，机器学习预测隐藏的文本。训练是在更多的小批量和学习率上完成的，并且修改超参数以获得更好的结果。这些变化让 RoBERTa 模型证明了它在 MNLI、QNLI、RTE、STS-B 和 RACE 任务上的效率，并且在 GLUE基准测试上也显示出相当大的改进。

RoBERTa 使用 160 GB 的数据进行预训练，其中包括未注释的 NLP 数据集和从称为 CC-News 数据集的公共新闻文章中删除的数据。这些数据以及 RoBERTa 在 1024 V100 Tesla GPU 上的训练需要一天才能完成。这导致 RoBERTa 的性能优于其他可用模型，如 BERT、XLNet、Alice 等。

BERT 被整合到谷歌搜索中，从而产生精确和准确的搜索。这将影响许多用户的内容策略。内容现在必须更加精确，以便可以使用搜索引擎优化对其进行更好的评级。设计内容的策略必须即兴发挥。

抽象概括

ML 在 NLP 中取得了长足的进步，其中一个应用是在摘要领域。最常见的摘要形式是提取摘要，它从内容中返回最重要的句子。另一种类型是抽象摘要，它使用新的句子，完整地保留重要的想法或事实。

内容选择是任何摘要系统不可或缺的一部分。在最近的方法中，高度强调了将内容选择与摘要生成分开的重要性。有许多正在进行的研究试图提取应该作为摘要一部分的实词和句子，并用它们来指导摘要摘要的生成。

可以通过缩短或改写冗长的文本来形成一个简短的句子。编码器和解码器在这方面很有帮助。可以通过类似的方式生成综合摘要，方法是选择重要的句子并删除不重要的句子元素，例如介词短语。可以通过融合多个句子来生成摘要。选择重要的句子可以通过多种方法来完成，但是处理它的大基数和识别句子关系以进行融合一直是一项艰巨的工作。以前一直假设相似的句子可以融合在一起，因为它们携带相似的待处理信息。

由于抽象摘要难以执行，因此该领域有很多发展。BERT 在抽象摘要方面也有应用。可以使用 BERT 模型生成多个句子的嵌入。要执行此任务，可以在第一句开始之前插入一个 [CLS] 标记。输出嵌入必须经过多层处理，这样才能捕获重要的特征。BERTSUM 模型就是一个例子。

自然语言生成

自然语言生成（NLG）是比较活跃的研究领域之一。它是 NLP 的一个子组，与 NLU 一起。NLG 的基本任务是将一些文本标记或数据转换为自然语言。实现这一点的基本方法是为特定域预定义模板并使用 NLU 技术填充空槽。

一种更复杂的方法是使用语言建模。语言建模用于使用学习源语言的内在特征所需的书写方式、语法、句法等对自然语言进行建模。然后我们可以使用这种语言针对某些给定的输入数据或文本生成语言内容。

在语言理解方面的应用不仅限于NLP，还延伸到NLG。Open-AI 的 GPT-2 根据给定的单词生成文本，是 NLG 中最先进的模型之一。BERT 模型尝试使用 HuggingFace 转换器获得相同的特征。

最近的发展表明，BERT 在 NLG 领域的表现并非最佳选择。其背后的原因是 BERT 模型是在 MLM 上训练的，而不是在自回归上训练的。除了使用 MLM 之外，混洗输入和随机词等变体使 BERT 模型更具泛化性。即使在所有这些变化之后，BERT 仍落后于 GPT-2，因为 BERT 模型是编码器表示，而 GPT-2 是解码器堆栈，这有助于它创建上下文丰富的表示。

机器翻译

翻译是将文本从一种语言翻译成另一种语言的想法。考虑到人类语言的波动，自动或机械翻译可能是最具挑战性的大脑功能之一。最近，ELMo、GPT 和 GPT-2、BERT、跨语言模型 (XLM)、XLNet 和 RoBERTa 等预训练技术在 ML 和 NLP 社区引起了广泛关注。

神经机器翻译 (NMT)模型通常包含一个编码器，用于将输入序列映射到隐藏表示，以及一个解码器，用于解码隐藏表示并生成目标语言的句子。BERT 在 NLU 中取得了巨大成功，将 BERT 与 NMT 相结合以提高性能可能是一个很好的研究领域。

当 BERT 由传感器和解码器使用注意力模型绘制时，可以通过融合 BERT 模型和 NMT 来改进 NMT。开放监督 NMT（包括句子级和文本级翻译）、半监督 NMT 和无监督 NMT 的研究证明了这种方法的有效性。

为了准确预测翻译质量，从头开始训练的模型理论上需要大量自然语言源文本、翻译及其人工标记的质量分数。创建足够规模的这些数据集来训练神经网络模型的成本高得令人望而却步。因此，研究人员已经确定，他们可以将学习从在正确翻译的平行语料库上训练的模型转移到识别翻译是否正确的任务。获得数百万个正确翻译的句子以用于在不需要质量分数的区域预训练模型要容易得多。

对于未来的工作，有很多有趣的方向。首先，我们必须学习如何加快测量过程。其次，我们可以在很多应用中使用这样的算法，比如query in response。如何将 BERT-fused 模型压缩成简化版本是另一个话题。还有其他现代功能，包括有关蒸馏的信息，以将预训练模型与 NMT 集成，这是一种测试方法。

结论

本章着眼于 BERT 和最先进的 NLP 任务中正在进行的研究。至此，我们结束了进入 NLP 世界的激动人心的旅程。

Sonhhxg_柒

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
5
评论
【使用 BERT 的问答系统】第 7 章：BERT 模型的未来

其背后的原因是 BERT 模型是在 MLM 上训练的，而不是在自回归上训练的。因此，研究人员已经确定，他们可以将学习从在正确翻译的平行语料库上训练的模型转移到识别翻译是否正确的任务。RoBERTa 使用 160 GB 的数据进行预训练，其中包括未注释的 NLP 数据集和从称为 CC-News 数据集的公共新闻文章中删除的数据。与在 BookCorpus 和维基百科上训练的微调 BERT 相比，在下游 NLP 任务上进行微调时，在特定领域的语料库上进行训练已被证明是有用的并且会产生更好的性能。
复制链接

扫一扫