李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:3/17 大模型+大资料=神奇结果?

3/17 大模型+大资料=神奇结果?

大模型的頓悟時刻

总所周知,大体量的模型+大量的数据,会得到更好的模型,可是原因是什么呢?
2020年的有一篇论文对其做了研究,结果如下
在这里插入图片描述

左横轴为参数量(越多代表模型越大);右横轴为数据集大小(越大表示数据量越大);
纵轴可以看作(做文字接龙的)Loss的值(越小越好)。
论文地址:https://arxiv.org/abs/2001.08361

这一节主要说明大模型的重要性,下一节介绍大资料的重要性

  • 大模型的“顿悟时刻”(Emergent Ability)
    模型的正确率并不随着模型大小的增加同步上升,而是当模型大到达某一个量时,才开始上升
    在这里插入图片描述

究其原因,以解方程式为例,小模型就不会做所以答案错误;中模型会列过程但不会解,也错误;大模型才能解出答案,做出正确回答。
在这里插入图片描述

所以,并不是随着模型增大,性能没有提升,有时候输出中间过程能给予开发的信心
联想:上一堂课中让GTP解推理题时,让它step by step
在这里插入图片描述

(A)(B)加入Chain of thought与不使用;
(C)Scratchpad一个类似CoT的方法;
(D)Calibration:语言模型LM知不知道自己不知道(LM对输出答案的自信程度

怎么量化自信程度?
以GPT为例,GPT的原理是文字接龙,每次会选择概率最高的文字输出
在这里插入图片描述

不同颜色代表不同大小的模型(黄色代表的模型最大)
横轴:LM输出的下一个字的概率(是模型选择的输出,不一定正确)
纵轴:LM输出的答案是正确答案的概率
结论:大模型在输出不确定的答案时会不自信(知道自己不知道答案),小模型不太受影响
p.s. (D)中ECE:指上图中彩色折现与黑色直线所夹面积(越小越好)

  • Q1:有没有什么任务是模型越大完成越差的呢?
    在这里插入图片描述
    图中粉色模型的正确率呈现出U型,为什么会变差?—— “一知半解吃大亏”
    在这里插入图片描述
    有研究证明,语言模型在设有陷阱的题目中会表现出U型的正确率

  • Q2:模型还能不能更大?
    在这里插入图片描述
    Switch Transformer,1.6T(PaLM的3倍,GPT3的10倍)
    论文地址:https://www.jmlr.org/papers/v23/21-0998.html
    在这里插入图片描述
    由于过于庞大,结构与一般的transformer有所差异,大模型中包含许多模组,每次执行任务时只调用部分模组(训练所有的参数,但使用时只使用部分参数,为了节省inference的资源)

到底要多少資料才夠

相关论文:When Do You Need Billions of Words of Pretraining Data?
其中指出, LM回答问题需要具备两种能力:
语言知识:文法与用词的能力;世界认识:常识与规则,对世界的理解
在这里插入图片描述
结论:在世界认识方面的能力提升需要更大量的资料
论文地址:https://arxiv.org/abs/2011.04946

  • 资料预处理的重要性

有关资料预处理的论文:Scaling Language Models: Methods, Analysis & Insights from Training Gopher
模型名称:Gopher
论文地址:https://arxiv.org/abs/2112.11446

处理步骤:过滤有害内容—去除HTML的tag,保留项目符号—去除低品质资料—去除重复资料—过滤测试集(保证实验的严谨性)
在这里插入图片描述

去除重复资料的重要性:降低机器输出“硬背”的句子概率(1.9%降至0.1%)
(相关论文地址:https://arxiv.org/abs/2107.06499

  • 假设:在固定的资源下,是模型更重要还是资料更重要?

相关论文:Training Compute-Optimal Large Language Models
论文地址:https://arxiv.org/abs/2203.15556

在这里插入图片描述

每一条线代表一个固定的运算资源
横轴:参数量,模型的大小(从左往右增加,M:Miliion,B:Billion)
纵轴:损失值,越小越好
(大模型小资料:思而不学;小模型大资料:学而不思,两头罔或殆,hhh)

再将每条U型曲线的最低点画在另一幅图上
在这里插入图片描述

使用模型,估算Gopher最适宜的参数量parameters和资料量Tokens(图中蓝线
使用拟合后的直线估算出Gopher最合适的parameters为63Billion,Tokens为1.4Trillion
(该估计法并不严谨,数据点少,且直线拟合)

开发Gopher的兄弟模型:Chinchilla,相同算力,但parameters与Tokens采用估算的最佳值,
Gopher和Chinchilla比较结果如下:
在这里插入图片描述

Chinchilla完胜Gopher
以Gopher的算力为单位,去估算其他大小模型的最佳parameters和tokens
在这里插入图片描述

按照这种估算方法,GPT3和PaLM的资料量是不足的
结论:在算力固定的条件下,可能不需要过大的模型(现在的模型已经足够大),而需要更多的资料

但事实上,如果是追求更高的正确率,比起更大的模型和更多的资料,更有效的方法是找一些自然语言的任务来直接教机器,也就是对LM进行Instruction(Fine)-tuning
在这里插入图片描述

左图
横轴:参数量,表示模型大小;纵轴:完成任务正确率
线条颜色由浅至深表示Instruction-tuning的task数量增多
右图
横轴:instruction-tuning的任务task数量;纵轴:完成任务正确率
三条不同颜色的线代表不同大小的模型
p.s. Instruction-tuning不是十分耗费运算资源的工作,1800个task只耗费了pretraining的0.2%

接上述,先pretraining,再通过额外的label data去做fine-tuning,最后进行reinforcement learning,是一个常见固定套路(GPT也是使用这个方法)
那么进行fine-tuning(=prompted)和reinforcement learning(RL)有多重要呢?
在这里插入图片描述

以大小为175B的模型SFT为参照物(图中绿线),比较不同条件下,使用者对哪个模型给出的答案更满意
横轴:模型大小
纵轴:该模型赢过SFT(175B)的概率
不同颜色的线解释(从下至上):未使用fine-tuning的GPT;预先fine-tuning的GPT;对照模型,在横轴175B处对应50%的胜率;未使用RL的PPO;使用RL的PPO
结论:即使模型不大,只要能做fine-tuning + RL是有机会胜过大模型的

chatGTP成功的关键:只有它知道人类会怎么使用这个语言模型
在这里插入图片描述
图中的FLAN模型用了许多资料对进行fine-tuning但人们对其回答的喜爱程度却没有PPO-ptx高

另闢蹊徑 — KNNLM

先回顾以下一般的语言模型LM的工作流程(以transformer为例)
在这里插入图片描述

  • KNN的工作流程
    (论文地址:https://arxiv.org/abs/1911.00172
    在这里插入图片描述

天蓝底文字:input给transformer的文字
桃红底文字:通过LM (例如transformer/rnn/lsn) 输出的representation
流程(左至右):
1. 将训练资料training context全部input,得到representation以及对应的target
2. 计算得到的representation与其他representation的distance(相似度or距离,越小越近)
3. 把距离最近的k个向量取出,查看这k个向量原本对应的target; 再将距离通过normalization转换成概率分布
4. 最后进行aggregation归纳统计,得到最后的概率分布,就是模型输出的概率

  • KNN的优势:不需要将冷僻的词汇当成一个类别,只要训练资料中存在这个冷僻词汇,都有可能进行正确的输出;用于training的data量可以远大于LM的量(这点不是很懂为什么是优点)
    但目前单使用KNN的效果不好,往往搭配一般的LM使用
    在这里插入图片描述
    下层为一般的LM,KNN输出概率会经过加权后加入LM的分类中,作为最终的输出概率分布
    在这里插入图片描述

左图
横轴:用于给KNN模型做距离计算的资料量(0-3B)
纵轴:可以理解为一个与正确率成反比的值(越小文字接龙能力越好)
红线:用100M的资料量训练Wiki模型
黑色虚线:同3B的资料量训练Wiki模型
蓝线:用100M的资料量训练Wiki模型搭配KNN LM
(还是不理解KNN的优势在哪,虽然训练LM的资料量可以少,但是给KNN的资料要多啊)
右图
横轴:用于给KNN模型做距离计算的资料量(0-3B)
纵轴:KNN在搭配LM使用时的最佳权值

  • KNN的缺点:太费时间,现场计算distances
    在这里插入图片描述

横轴:每秒处理的tokens数量
纵轴:上文中的perplexity(越小越好)

  • 与KNN LM相似的模型RETRO(Retrieval Enhanced Transformer)
    优势:可以回答需要记忆能力的问题(死背回答,也是KNN LM的优点)

GPT-4

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值