大模型黑书阅读笔记--第一章

transformer是工业化、同质化(一个模型可以执行各种任务),具有新特性(先训练基础模型,然后去挖掘基础模型的能力和应用)的后深度学习模型,带来了一种崭新的范式变化,以至于需要一个新名称来描述:基础模型。

transformer诞生:大型科技公司不得不找到更好的模型来应对流入数据中心的PB级数据的指数增长,需要一个AI模型就能处理各种任务,而这些任务往往是需要用不同的算法单独处理的。例如Google发明了Transformer模型,从而推出了Google BERT。   

transformer的背景:20世纪初,马尔可夫引入随机值的概念,并创建了随机过程的理论,在AI中成为马尔科夫决策过程。1948年,香农创造了信息论。1950年,图灵发表《计算机与智能》,1956年,麦卡锡提出AI这个词,确定了机器是可以学习的,1982年霍普菲尔德受《大脑中持久状态的存在》作者W.A.Little启发提出了RNN,20世纪80年代,CNN应用于文本序列,并制作出LeNet-5,然而在处理长而复杂序列中的长期依赖关系时,CNN原本的高效架构达到了极限。为突破CNN的极限,注意力的概念诞生了,人们开始将注意力添加到RNN和CNN模型中。过了没有更多进展的30年,到2017,工业化的最先进的transformer出现了,RNN不再是序列建模的先决条件了。

基础模型:指在超级计算机上用数十亿个参数对数十亿条数据进行训练得出的transformer模型,不需要微调即可执行各种任务。例如GPT-3,Google BERT和少量Transformer引擎。

transformer改变了NLU(NLP的一个子集)的游戏规则
transformer架构的革命性和颠覆性:BERT(Google)和GPT(OpenAI)放弃了循环网络层,使用自注意力机制取而代之,而优于RNN和CNN。

通过Codex(可将自然语言转换为程序源代码的GPT-3模型),用户不需要先学习大量的编程知识就能编写应用程序。并因此诞生了一项基于Transformer模型的新技能--提示工程。

工业4.0建立在第三次工业革命(数字化革命)的基础上,催生万物互联。自动化流程正在取代人类在包括NLP在内的关键领域中的决策。

  • 10
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值