cnn,rnn达到了极限,憋了三十年(这段时间已经有注意力了,并且注意力也加到了cnn,rnn中,但没啥进展)憋来了工业化最先进的transformer
transformer的核心概念可以理解为混合词元(token),rnn通过循环函数顺序分析次元,而transformer模型不是顺序分析,而是将每个词元与序列中其他词元关联起来。
为突破cnn的极限,注意力的概念出来了:cnn做序列处理时只关注最后一个词元,因此为突破,注意力便是不仅关注最后一个词元,还关注其他词元。
像分析cnn只关注最后一个词元一样,transformer的极限在哪呢?感觉上在于语言信息特征提取多余。
个人或者小公司可以通过API访问最强大的transformer模型,例如OPEN AI提供了一种SaaS(软件即服务)的API,可以使用市场上最有效的transformer模型。
- 一键获取API密钥
- 导入OPEN AI
- 通过提示输入你想要处理的NLP任务
- 你将收到由一段词元返回的输出结果
专注于纯代码解决方案的工业3.0程序员将转变为具有跨学科思维的工业4.0程序员
工业4.0AI专家技能要求(以实现AI系统为例):
- prompt engineer(上面open ai的API那样)
- 使用库来处理数据集和输出
- 训练和微调
- 开发级技能(例如tokenizer和dataset可能不匹配,要能解决这种问题)
agent正在颠覆AI开发开发生态系统
编程将成为NLP领域的子领域?
2021年发布了一篇codex论文,codex是一个可将自然语言转换为程序源代码的GPT-3(可以称为基础模型) 模型
疑问:
GPT-3transformer目前嵌入了多个Microsoft Azure应用程序,如Github Copilot。(这句话啥意思)
不能直接访问嵌入式transformer模型:该模型提供自动开发支持,如自动生成代码(啥是嵌入式transformer模型)
1. “GPT-3 transformer目前嵌入了多个Microsoft Azure应用程序,如Github Copilot。”
这句话的意思是:GPT-3 的 Transformer 模型已经集成到了多个 Microsoft Azure 的应用程序中,比如 GitHub Copilot。具体来说,GitHub Copilot 是一种基于 GPT-3 的 AI 编程助手,它可以在编写代码时提供实时的代码建议和补全功能。
- 嵌入(集成):指的是 GPT-3 模型被作为组件或服务,嵌入到这些应用程序中,提供智能化功能。
- Microsoft Azure 应用程序:Microsoft Azure 是微软的云服务平台,提供了多种应用程序和服务,包括 AI、计算、存储等。GPT-3 被作为其中的一部分来为这些应用提供功能。
2. “不能直接访问嵌入式transformer模型:该模型提供自动开发支持,如自动生成代码。”
这里的“嵌入式 Transformer 模型”指的是集成到某些系统或应用程序中的 Transformer 模型,如 GPT-3,它被用来提供自动开发支持功能。
-
嵌入式 Transformer 模型:指的是已经被集成到某个系统或应用程序中的 Transformer 模型。用户不能直接访问或操作这个模型,而是通过某些特定的界面或功能来使用它。比如在 GitHub Copilot 中,用户是通过编写代码的环境来调用 GPT-3 的代码生成功能的,而不是直接调用 GPT-3 模型本身。
-
自动生成代码:这是指模型能够根据用户输入的部分代码或指令自动生成后续代码,帮助开发者更高效地编写代码。
总结
- 嵌入:指的是模型被集成到了某个应用程序中。
- 嵌入式 Transformer 模型:是集成到应用中且不可直接访问的 Transformer 模型,用于特定任务,如自动生成代码。
transformer是工业化、同质化(一个模型可以执行各种任务),具有新特性(先训练基础模型,然后去挖掘基础模型的能力和应用)的后深度学习模型,带来了一种崭新的范式变化,以至于需要一个新名称来描述:基础模型。
transformer诞生:大型科技公司不得不找到更好的模型来应对流入数据中心的PB级数据的指数增长,需要一个AI模型就能处理各种任务,而这些任务往往是需要用不同的算法单独处理的。例如Google发明了Transformer模型,从而推出了Google BERT。
transformer的背景:20世纪初,马尔可夫引入随机值的概念,并创建了随机过程的理论,在AI中成为马尔科夫决策过程。1948年,香农创造了信息论。1950年,图灵发表《计算机与智能》,1956年,麦卡锡提出AI这个词,确定了机器是可以学习的,1982年霍普菲尔德受《大脑中持久状态的存在》作者W.A.Little启发提出了RNN,20世纪80年代,CNN应用于文本序列,并制作出LeNet-5,然而在处理长而复杂序列中的长期依赖关系时,CNN原本的高效架构达到了极限。为突破CNN的极限,注意力的概念诞生了,人们开始将注意力添加到RNN和CNN模型中。过了没有更多进展的30年,到2017,工业化的最先进的transformer出现了,RNN不再是序列建模的先决条件了。
基础模型:指在超级计算机上用数十亿个参数对数十亿条数据进行训练得出的transformer模型,不需要微调即可执行各种任务。例如GPT-3,Google BERT和少量Transformer引擎。
transformer改变了NLU(NLP的一个子集)的游戏规则
transformer架构的革命性和颠覆性:BERT(Google)和GPT(OpenAI)放弃了循环网络层,使用自注意力机制取而代之,而优于RNN和CNN。
通过Codex(可将自然语言转换为程序源代码的GPT-3模型),用户不需要先学习大量的编程知识就能编写应用程序。并因此诞生了一项基于Transformer模型的新技能--提示工程。
工业4.0建立在第三次工业革命(数字化革命)的基础上,催生万物互联。自动化流程正在取代人类在包括NLP在内的关键领域中的决策。