大模型黑书阅读笔记--第一章_大模型黑书电子版-CSDN博客

本文链接：https://blog.csdn.net/m0_56741459/article/details/138368136

从CNN和RNN的局限性出发，介绍Transformers如何凭借自注意力机制彻底改变自然语言处理领域，并概述其在工业4.0时代的重要作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

cnn,rnn达到了极限，憋了三十年（这段时间已经有注意力了，并且注意力也加到了cnn，rnn中，但没啥进展）憋来了工业化最先进的transformer

transformer的核心概念可以理解为混合词元（token），rnn通过循环函数顺序分析次元，而transformer模型不是顺序分析，而是将每个词元与序列中其他词元关联起来。

为突破cnn的极限，注意力的概念出来了：cnn做序列处理时只关注最后一个词元，因此为突破，注意力便是不仅关注最后一个词元，还关注其他词元。

像分析cnn只关注最后一个词元一样，transformer的极限在哪呢？感觉上在于语言信息特征提取多余。

个人或者小公司可以通过API访问最强大的transformer模型，例如OPEN AI提供了一种SaaS（软件即服务）的API，可以使用市场上最有效的transformer模型。

一键获取API密钥
导入OPEN AI
通过提示输入你想要处理的NLP任务
你将收到由一段词元返回的输出结果

专注于纯代码解决方案的工业3.0程序员将转变为具有跨学科思维的工业4.0程序员

工业4.0AI专家技能要求（以实现AI系统为例）：

prompt engineer（上面open ai的API那样）
使用库来处理数据集和输出
训练和微调
开发级技能（例如tokenizer和dataset可能不匹配，要能解决这种问题）

agent正在颠覆AI开发开发生态系统

编程将成为NLP领域的子领域？

2021年发布了一篇codex论文，codex是一个可将自然语言转换为程序源代码的GPT-3（可以称为基础模型）模型

疑问：

GPT-3transformer目前嵌入了多个Microsoft Azure应用程序，如Github Copilot。（这句话啥意思）

不能直接访问嵌入式transformer模型：该模型提供自动开发支持，如自动生成代码（啥是嵌入式transformer模型）

1. “GPT-3 transformer目前嵌入了多个Microsoft Azure应用程序，如Github Copilot。”

这句话的意思是：GPT-3 的 Transformer 模型已经集成到了多个 Microsoft Azure 的应用程序中，比如 GitHub Copilot。具体来说，GitHub Copilot 是一种基于 GPT-3 的 AI 编程助手，它可以在编写代码时提供实时的代码建议和补全功能。

嵌入（集成）：指的是 GPT-3 模型被作为组件或服务，嵌入到这些应用程序中，提供智能化功能。
Microsoft Azure 应用程序：Microsoft Azure 是微软的云服务平台，提供了多种应用程序和服务，包括 AI、计算、存储等。GPT-3 被作为其中的一部分来为这些应用提供功能。

2. “不能直接访问嵌入式transformer模型：该模型提供自动开发支持，如自动生成代码。”

这里的“嵌入式 Transformer 模型”指的是集成到某些系统或应用程序中的 Transformer 模型，如 GPT-3，它被用来提供自动开发支持功能。

嵌入式 Transformer 模型：指的是已经被集成到某个系统或应用程序中的 Transformer 模型。用户不能直接访问或操作这个模型，而是通过某些特定的界面或功能来使用它。比如在 GitHub Copilot 中，用户是通过编写代码的环境来调用 GPT-3 的代码生成功能的，而不是直接调用 GPT-3 模型本身。
自动生成代码：这是指模型能够根据用户输入的部分代码或指令自动生成后续代码，帮助开发者更高效地编写代码。

总结

嵌入：指的是模型被集成到了某个应用程序中。
嵌入式 Transformer 模型：是集成到应用中且不可直接访问的 Transformer 模型，用于特定任务，如自动生成代码。

transformer是工业化、同质化（一个模型可以执行各种任务），具有新特性（先训练基础模型，然后去挖掘基础模型的能力和应用）的后深度学习模型，带来了一种崭新的范式变化，以至于需要一个新名称来描述：基础模型。

transformer诞生：大型科技公司不得不找到更好的模型来应对流入数据中心的PB级数据的指数增长，需要一个AI模型就能处理各种任务，而这些任务往往是需要用不同的算法单独处理的。例如Google发明了Transformer模型，从而推出了Google BERT。

transformer的背景：20世纪初，马尔可夫引入随机值的概念，并创建了随机过程的理论，在AI中成为马尔科夫决策过程。1948年，香农创造了信息论。1950年，图灵发表《计算机与智能》，1956年，麦卡锡提出AI这个词，确定了机器是可以学习的，1982年霍普菲尔德受《大脑中持久状态的存在》作者W.A.Little启发提出了RNN，20世纪80年代，CNN应用于文本序列，并制作出LeNet-5，然而在处理长而复杂序列中的长期依赖关系时，CNN原本的高效架构达到了极限。为突破CNN的极限，注意力的概念诞生了，人们开始将注意力添加到RNN和CNN模型中。过了没有更多进展的30年，到2017，工业化的最先进的transformer出现了，RNN不再是序列建模的先决条件了。

基础模型：指在超级计算机上用数十亿个参数对数十亿条数据进行训练得出的transformer模型，不需要微调即可执行各种任务。例如GPT-3，Google BERT和少量Transformer引擎。

transformer改变了NLU（NLP的一个子集）的游戏规则
transformer架构的革命性和颠覆性：BERT（Google）和GPT（OpenAI）放弃了循环网络层，使用自注意力机制取而代之，而优于RNN和CNN。

通过Codex（可将自然语言转换为程序源代码的GPT-3模型），用户不需要先学习大量的编程知识就能编写应用程序。并因此诞生了一项基于Transformer模型的新技能--提示工程。

工业4.0建立在第三次工业革命（数字化革命）的基础上，催生万物互联。自动化流程正在取代人类在包括NLP在内的关键领域中的决策。