2024大模型书籍推荐，外网爆炸的《基于ChatGPT、GPT-4等Transformer架构的自然语言处理》

健忘的派大星

于 2024-09-06 10:18:32 发布

阅读量1k

点赞数 27

文章标签： chatgpt transformer 架构人工智能语言模型 agi ai

本文链接：https://blog.csdn.net/2401_85327249/article/details/141951595

版权

前言

Transformer 是自然语言理解(Natural Language Understanding，NLU)的游戏规则改变者，NLU是自然语言处理(NaturalLanguage Processing，NLP)的一个子集。NLU已成为全球数字经济中 AI的支柱之一。

随着数据量的不断增长，训练 AI模型需要的规模也越来越大。Transformer 模型为参数驱动的 AI开启了新时代。我们需要大量参数进行学习，才能学习到由数以亿计的单词组合的数据集。

今天给小伙伴们分享的这份手册将带领你开发代码和设计提示(这是一项控制Transformer 模型行为的新的“编程”技能)。每一章都会使用Python、PyTorch和 TensorFlow 从头开始讲授语言理解的关键方面。你将学习原始 Transformer、Google BERT、OpenAI GPT-3、T5 和其他几个模型的架构。
在这里插入图片描述

下载当前版本：完整PDF书籍链接获取，可以扫描下方二维码免费领取👇👇👇

第1章 Transformer模型介绍

第1章从较高层次解释什么是 Transformer 模型。我们将研究 Transformer 生态系统和基础模型的特性。该章重点介绍许多可用的平台以及工业 4.0 AI专家的发展历程。

在这里插入图片描述

第2章 Transformer模型架构入门

第2章通过回顾 NLP 的背景，讲述了循环神经网络(RNN)、长短期记忆网络(LSTM)和卷积神经网络(CNN)深度学习架构是如何演变为 Transformer 架构的。我们将通过 Google Research和 Google Brain 的作者们独创的“注意力机制就是一切(Attention Is All You Need)”的方法来分析 Transformer 的架构。将描述 Transformer 的理论，并通过 Python 实践来讲解多头注意力子层是如何工作的。

在这里插入图片描述

第3章微调BERT模型

第3章基于原始 Transformer 的架构进行扩展。BERT(BidirectionalEncoder Representations from Transformers)向你展示了一种理解 NLP 世界的新方式。与通过分析过去序列来预测未来序列不同，BERT 关注整个序列！首先介绍BERT架构的关键创新，然后通过在 Google Colab 笔记本中逐步执行每个步骤来微调一个 BERT模型。与人类一样，BERT可以学习任务并执行其他新任务，而不需要从头学习。

在这里插入图片描述

第4章从头开始预训练ROBERTa模型

第4章使用 Hugging Face PyTorch 模块从头构建一个 RoBERTa Transformer 模型。这个 Transformer 模型既类似于 BERT，又类似于 DistiIBERT。首先，我们将使用自定义数据集从头训练一个词元分析器。然后将使用训练好的 Transformer 运行下游的掩码语言建模任务。

在这里插入图片描述

第5章使用Transformer处理下游NLP任务

第5章揭示了 Transformer 模型在下游 NLP 任务中的神奇之处。我们可以微调预训练 Transformer 模型以执行一系列 NLP 任务，如 BooIQ、CB、MultiRC、RTE、WiC 等在 GLUE 和 SuperGLUE 排行榜上占据主导地位的 NLP 任务。将介绍 Transformer，的评估过程、任务、数据集和评估指标。然后将使用 Hugging Face 的 Transformer 流水线处理一些下游任务。

在这里插入图片描述

第6章机器翻译

第6章讲述什么是机器翻译，并讨论如何从依赖人类翻译的基准转向使用机器翻译的方法，从而帮助读者理解如何构建机器翻译系统并进行进一步的研究和开发。然后，我们将预处理来自欧洲议会的 WMT 法英数据集。机器翻译需要精确的评估方法，这一章将讲述 BLEU 评分方法。最后，我们将使用 Trax 实现一个 Transformer 机器翻译模型。

在这里插入图片描述

第7章 GPT-3

第7章探索了 OpenAI GPT-2 和 GPT-3 Transformer 的许多方面。首先研究 OpenAI GPT 模型的架构，解释 GPT-3 引擎。然后将运行一个 GPT-2 345M 参数模型，并与之交互生成文本。接着将讲述 GPT-3playground 的实际应用，使用 GPT-3模型运行 NLP 任务，并将结果与 GPT-2 进行比较。

在这里插入图片描述

第8章文本擒要（以法律和财务文档为例）

第8章介绍 T5 Transformer 模型的概念和架构。我们将使用 Hugging Face 初始化一个 T5 模型进行文本摘要。将使用 T5 模型汇总各种文本，然后探索应用于 Transformer 的迁移学习方法的优点和局限性。最后，将使用 GPT-3 将一些公司法律文本汇总为小学二年级学生都能看懂的文本。

在这里插入图片描述

第9章数据集预处理和词元分析器

第9章分析词元分析器的局限性，并介绍一些改进数据编码过程质量的方法。首先构建一个 Python 程序，调查为什么一些单词会被 Word2Vector 词元分析器省略或误解，讲述预训练词元分析器的局限性。然后我们改进了第8章 T5 模型生成的摘要，以展示词元化过程方法仍然有很大的改进空间。最后，将测试 GPT-3 语言理解能力的极限。

在这里插入图片描述

第10章基于BERT的语义角色标注

第10章探索 Transformer 如何学习理解文本内容语义角色标注(SRL)对人类来说是一项具有挑战性的任务。Transformer 能够产生令人惊讶的结果。我们将使用 Google Colab 笔记本实现由 A1len AI 研究所设计的基于 BERT 的 Transformer 模型。还将使用该研究所的在线资源来可视化 SRL 的输出。最后将讲述 SRL 的局限性和适用范围。

在这里插入图片描述

第11章使用Transformer进行问答

第11章展示 Transformer 如何学习推理。Transformer 能够理解文本、故事，并进行推理。我们将看到如何通过添加 NER 和 SRL 来增强问答过程。我们将介绍如何设计并实现一个问题生成器：它可以用于训练 Transformer 模型，也可以单独使用来生成问题。

在这里插入图片描述

第12章情绪分析

第12章展示了 Transformer 如何改进情绪分析。我们将使用斯坦福情绪树库对复杂句子进行分析，然后挑战几个 Transformer 模型，看看是否能够理解序列的结构及其逻辑形式。我们将看到如何使用 Transformer 进行预测，并根据情绪分析的输出触发不同的行为。该章最后还列举一些使用 GPT-3 的案例。

在这里插入图片描述

第13章使用Transformer分析假新闻

第13章深入讲述假新闻这个热门话题，以及 Transformer 如何帮助我们理解每天在网络上看到的在线内容的不同观点。每天有数十亿条消息、帖子和文章通过社交媒体、网站和各种实时通信方式发布在网络上。我们将利用前几章介绍的技术来分析关于气候变化和枪支管控的辩论。我们将讨论在合理怀疑的基础上如何确定什么可以被视为假新闻，以及什么新闻仍然是主观的道德和伦理问题。

在这里插入图片描述

第14章可解释AI

第14章通过可视化 Transformer 模型的活动来揭开 Transformer 模型的面纱。我们将使用 BertViz 来可视化注意力头，并使用语言可解释性工具(LIT)进行主成分分析(PCA)。最后将使用LIME通过字典学习来可视化 Transformer。

在这里插入图片描述

第15章从NLP到计算机视觉

第 15 章深入研究高级模型Reformer和 DeBERTa，并使用 Hugging Face 运行示例。Transformer 可将图像视作单词序列进行处理。该章还将研究各种视觉 Transformer 模型，如 ViT、CLIP 和 DALL-E；我们将使用计算机视觉任务测试它们，包括图像生成。

在这里插入图片描述

第16章 AI助理

第16章讲述了当工业 4.0(I4.0) 达到成熟阶段时，我们将主要与 AI助理(Copilot)一起工作。AI 助理主要基于提示工程，所以该章首先列举几个非正式正式英语提示工程的示例，使用 GitHubCopilot 来辅助生成代码。然后讲述视觉Transformer 如何帮助 NLP Transformer 可视化周围的世界。最后将创建一个基于Transformer的推荐系统，可将它应用于数字人和元宇宙中！

在这里插入图片描述

第17章 ChatGPT科GPT-4

第17章在前几章的基础上，探索了 OpenAI 最先进的Transformer 模型 ChatGPT和 GPT-4。将使用 ChatGPT 建立对话式 AI，并学习如何使用可解释 AI 解释 Transformer 的输出。将探索 GPT-4，并使用提示编写一个k-means聚类程序。还将介绍一个高级用例。最后将使用 DALL-E2 来创建和生成图像的变体。

在这里插入图片描述