大模型黑书阅读笔记--第一章

cnn,rnn达到了极限,憋了三十年(这段时间已经有注意力了,并且注意力也加到了cnn,rnn中,但没啥进展)憋来了工业化最先进的transformer

transformer的核心概念可以理解为混合词元(token),rnn通过循环函数顺序分析次元,而transformer模型不是顺序分析,而是将每个词元与序列中其他词元关联起来。

为突破cnn的极限,注意力的概念出来了:cnn做序列处理时只关注最后一个词元,因此为突破,注意力便是不仅关注最后一个词元,还关注其他词元

像分析cnn只关注最后一个词元一样,transformer的极限在哪呢?感觉上在于语言信息特征提取多余。

个人或者小公司可以通过API访问最强大的transformer模型,例如OPEN AI提供了一种SaaS(软件即服务)的API,可以使用市场上最有效的transformer模型。

  • 一键获取API密钥
  • 导入OPEN AI
  • 通过提示输入你想要处理的NLP任务
  • 你将收到由一段词元返回的输出结果

专注于纯代码解决方案的工业3.0程序员将转变为具有跨学科思维的工业4.0程序员

工业4.0AI专家技能要求(以实现AI系统为例):

  • prompt engineer(上面open ai的API那样)
  • 使用库来处理数据集和输出
  • 训练和微调
  • 开发级技能(例如tokenizer和dataset可能不匹配,要能解决这种问题)

agent正在颠覆AI开发开发生态系统

编程将成为NLP领域的子领域?

2021年发布了一篇codex论文,codex是一个可将自然语言转换为程序源代码的GPT-3(可以称为基础模型) 模型

疑问:

GPT-3transformer目前嵌入了多个Microsoft Azure应用程序,如Github Copilot。(这句话啥意思)

不能直接访问嵌入式transformer模型:该模型提供自动开发支持,如自动生成代码(啥是嵌入式transformer模型)

1. “GPT-3 transformer目前嵌入了多个Microsoft Azure应用程序,如Github Copilot。”

这句话的意思是:GPT-3 的 Transformer 模型已经集成到了多个 Microsoft Azure 的应用程序中,比如 GitHub Copilot。具体来说,GitHub Copilot 是一种基于 GPT-3 的 AI 编程助手,它可以在编写代码时提供实时的代码建议和补全功能。

  • 嵌入(集成):指的是 GPT-3 模型被作为组件或服务,嵌入到这些应用程序中,提供智能化功能。
  • Microsoft Azure 应用程序:Microsoft Azure 是微软的云服务平台,提供了多种应用程序和服务,包括 AI、计算、存储等。GPT-3 被作为其中的一部分来为这些应用提供功能。

2. “不能直接访问嵌入式transformer模型:该模型提供自动开发支持,如自动生成代码。”

这里的“嵌入式 Transformer 模型”指的是集成到某些系统或应用程序中的 Transformer 模型,如 GPT-3,它被用来提供自动开发支持功能。

  • 嵌入式 Transformer 模型:指的是已经被集成到某个系统或应用程序中的 Transformer 模型。用户不能直接访问或操作这个模型,而是通过某些特定的界面或功能来使用它。比如在 GitHub Copilot 中,用户是通过编写代码的环境来调用 GPT-3 的代码生成功能的,而不是直接调用 GPT-3 模型本身。

  • 自动生成代码:这是指模型能够根据用户输入的部分代码或指令自动生成后续代码,帮助开发者更高效地编写代码。

总结

  • 嵌入:指的是模型被集成到了某个应用程序中。
  • 嵌入式 Transformer 模型:是集成到应用中且不可直接访问的 Transformer 模型,用于特定任务,如自动生成代码。

transformer是工业化、同质化(一个模型可以执行各种任务),具有新特性(先训练基础模型,然后去挖掘基础模型的能力和应用)的后深度学习模型,带来了一种崭新的范式变化,以至于需要一个新名称来描述:基础模型。

transformer诞生:大型科技公司不得不找到更好的模型来应对流入数据中心的PB级数据的指数增长,需要一个AI模型就能处理各种任务,而这些任务往往是需要用不同的算法单独处理的。例如Google发明了Transformer模型,从而推出了Google BERT。   

transformer的背景:20世纪初,马尔可夫引入随机值的概念,并创建了随机过程的理论,在AI中成为马尔科夫决策过程。1948年,香农创造了信息论。1950年,图灵发表《计算机与智能》,1956年,麦卡锡提出AI这个词,确定了机器是可以学习的,1982年霍普菲尔德受《大脑中持久状态的存在》作者W.A.Little启发提出了RNN,20世纪80年代,CNN应用于文本序列,并制作出LeNet-5,然而在处理长而复杂序列中的长期依赖关系时,CNN原本的高效架构达到了极限。为突破CNN的极限,注意力的概念诞生了,人们开始将注意力添加到RNN和CNN模型中。过了没有更多进展的30年,到2017,工业化的最先进的transformer出现了,RNN不再是序列建模的先决条件了。

基础模型:指在超级计算机上用数十亿个参数对数十亿条数据进行训练得出的transformer模型,不需要微调即可执行各种任务。例如GPT-3,Google BERT和少量Transformer引擎。

transformer改变了NLU(NLP的一个子集)的游戏规则
transformer架构的革命性和颠覆性:BERT(Google)和GPT(OpenAI)放弃了循环网络层,使用自注意力机制取而代之,而优于RNN和CNN。

通过Codex(可将自然语言转换为程序源代码的GPT-3模型),用户不需要先学习大量的编程知识就能编写应用程序。并因此诞生了一项基于Transformer模型的新技能--提示工程。

工业4.0建立在第三次工业革命(数字化革命)的基础上,催生万物互联。自动化流程正在取代人类在包括NLP在内的关键领域中的决策。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值