LLM基础

LLM:Large Language Model

2020年年中 GPT3.0:LLM往何处去的发展理念

● 单从技术角度看,差距主要来自于对LLM的认知以及未来应往何处去的发展理念的不同。

选手:OpenAI、Google、Meta

LLM的技术脉络、

ChatGPT带来的AI研究新范式。

LLM从海量数据学到什么、如何存取、规模增大的影响、

In Context Learning、Instruct、推理能力、思维链CoT是什么

范式1.0:深度学习到两阶段预训练模型

2013-2020.5

NLP的深度学习模型:LSTM、CNN、Sequence to Sequence+Attention的总体技术框架

如何有效增加模型层深/模型参数容量。

但总体不够成功。原因有两个:数据、特征抽取器的表达能力。

影响:

部分NLP子领域的衰退【中文分词、词性标注、NER、句法分析、指代消解、语义Parser】

技术框架日趋统一【PTM+FT】

NLU:文本分类、句子关系判断、情感倾向判断 -> BERT 0.1B

NLG:聊天机器人、机器翻译、文本摘要、问答系统 -> GPT

范式2.0:从PTM到AGI,Artificial General Intelligence

20.6-至今

过渡期:GPT3.0为代表的 自回归语言模型+Prompting 模式

GPT3、PaLM、GLaM、MT-NLG、LaMDA等

能统一到 这种模式的原因:

1、Google的T5形式上统一了NLU和NLG

2、如果想要以 zero shot prompting、few shot prompting的方式 做好任务,则必须采取 GPT模式。有论文证明这点。《On the Role of Bidirectionality in Language Model Pre-Training》

● 问题:我们最理想的LLM模型是什么样的?

1、具备强大的自主学习能力 -> 规模巨大 -> 作出/改动这个模型参数的机构必然很少
2、能解决NLP任何子领域的问题
3、LLM应该理解人类的命令

few shot prompting(In Context Learning) 过渡时期的技术

ChatGPT向GPT3.5模型注入的不是 世界知识、而是人类偏好知识。

人类偏好:1、人类表达一个任务的习惯说法 2、区分好、不好的回答

ChatGPT:基本实现了理想LLM的接口层,让LLM适配人的习惯命令表达方式(instruct技术),增加了LLM的易用性和用户体验。

影响二:很多NLP领域子领域不再具备独立研究价值

影响三:更多NLP之外的研究领域将被纳入LLM技术体系

GPT3.0后的LLM模型主流技术:

1、一类是关于LLM模型如何从数据中吸收知识,也包括模型规模增长对LLM吸收知识能力带来的影响

知识分类:语言类知识(词法、词性、句法、语义)、世界知识(事实型知识)。

【可以简单理解:把LLM看做是一种以模型参数体现的隐式知识图谱】

《When Do You Need Billions of Words of Pre-training Data?》 研究了PTM学习到的知识量与训练数据量的关系。结论:对于Bert类型的语言模型来说,只用1000万到1亿单词的语料,就能学好句法语义等语言学知识。但是要学习事实类知识,则要更多的训练数据。这个结论其实也是在意料中的,毕竟语言学知识相对有限且静态,而事实类知识则数量巨大,且处于不断变化过程中。而目前研究证明了随着增加训练数据量,预训练模型在各种下游任务中效果越好,这说明了从增量的训练数据中学到的更主要是世界知识。

● LLM如何存取知识
○ Transformer的FFN 看成存储大量具体知识的k-v存储器;FFN的第一层是MLP宽隐层、为Key层;第二层是MLP窄隐层、为Value层。FFN的输入层是某个单词对应的MHA的输出结果Embedding、也就是通过self Attention,将整个句子有关的输入上下文集成到一起的Embedding,代表了整个输入句子的整体信息。

○ Transformer低层对句子的表层模式作出反应,高层对语义模式作出反应。

● 如何修正LLM里存储的知识

○ 从训练数据的源头来修正知识

○ 对LLM模型做一次FT来修正知识

○ 直接修改LLM里某些知识对应的模型参数来修正知识
■ “Locating and Editing Factual Associations in GPT”和“Mass-Editing Memory in a Transformer”

2、规模效应

GLM 130B、文心 260B

比如确实需要同时增加训练数据量和模型参数,模型效果才会更好。

GPT训练用的数据量: 410billion tokens, 即~3000亿的单词.

GLM4:输入token到128k

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值