transformer是工业化、同质化(一个模型可以执行各种任务),具有新特性(先训练基础模型,然后去挖掘基础模型的能力和应用)的后深度学习模型,带来了一种崭新的范式变化,以至于需要一个新名称来描述:基础模型。
transformer诞生:大型科技公司不得不找到更好的模型来应对流入数据中心的PB级数据的指数增长,需要一个AI模型就能处理各种任务,而这些任务往往是需要用不同的算法单独处理的。例如Google发明了Transformer模型,从而推出了Google BERT。
transformer的背景:20世纪初,马尔可夫引入随机值的概念,并创建了随机过程的理论,在AI中成为马尔科夫决策过程。1948年,香农创造了信息论。1950年,图灵发表《计算机与智能》,1956年,麦卡锡提出AI这个词,确定了机器是可以学习的,1982年霍普菲尔德受《大脑中持久状态的存在》作者W.A.Little启发提出了RNN,20世纪80年代,CNN应用于文本序列,并制作出LeNet-5,然而在处理长而复杂序列中的长期依赖关系时,CNN原本的高效架构达到了极限。为突破CNN的极限,注意力的概念诞生了,人们开始将注意力添加到RNN和CNN模型中。过了没有更多进展的30年,到2017,工业化的最先进的transformer出现了,RNN不再是序列建模的先决条件了。
基础模型:指在超级计算机上用数十亿个参数对数十亿条数据进行训练得出的transformer模型,不需要微调即可执行各种任务。例如GPT-3,Google BERT和少量Transformer引擎。
transformer改变了NLU(NLP的一个子集)的游戏规则
transformer架构的革命性和颠覆性:BERT(Google)和GPT(OpenAI)放弃了循环网络层,使用自注意力机制取而代之,而优于RNN和CNN。
通过Codex(可将自然语言转换为程序源代码的GPT-3模型),用户不需要先学习大量的编程知识就能编写应用程序。并因此诞生了一项基于Transformer模型的新技能--提示工程。
工业4.0建立在第三次工业革命(数字化革命)的基础上,催生万物互联。自动化流程正在取代人类在包括NLP在内的关键领域中的决策。