李宏毅-2023春机器学习 ML2023 SPRING-学习笔记：3/17 大模型+大资料=神奇结果？

热水过敏

已于 2023-04-30 16:45:44 修改

阅读量461

点赞数 2

分类专栏：李宏毅机器学习ML 2023 Spring - 学习笔记文章标签：机器学习学习笔记

于 2023-04-29 20:56:12 首次发布

本文链接：https://blog.csdn.net/Transfattyacids/article/details/130443612

版权

李宏毅机器学习ML 2023 Spring - 学习笔记专栏收录该内容

7 篇文章 10 订阅

订阅专栏

3/17 大模型+大资料=神奇结果？

大模型的頓悟時刻

总所周知，大体量的模型+大量的数据，会得到更好的模型，可是原因是什么呢？
2020年的有一篇论文对其做了研究，结果如下
在这里插入图片描述

左横轴为参数量（越多代表模型越大）；右横轴为数据集大小（越大表示数据量越大）；
纵轴可以看作（做文字接龙的）Loss的值（越小越好）。
论文地址：https://arxiv.org/abs/2001.08361

这一节主要说明大模型的重要性，下一节介绍大资料的重要性

大模型的“顿悟时刻”(Emergent Ability)
模型的正确率并不随着模型大小的增加同步上升，而是当模型大到达某一个量时，才开始上升

究其原因，以解方程式为例，小模型就不会做所以答案错误；中模型会列过程但不会解，也错误；大模型才能解出答案，做出正确回答。
在这里插入图片描述

所以，并不是随着模型增大，性能没有提升，有时候输出中间过程能给予开发的信心
联想：上一堂课中让GTP解推理题时，让它step by step
在这里插入图片描述

(A)(B)加入Chain of thought与不使用;
(C）Scratchpad一个类似CoT的方法；
(D）Calibration：语言模型LM知不知道自己不知道（LM对输出答案的自信程度）

怎么量化自信程度？
以GPT为例，GPT的原理是文字接龙，每次会选择概率最高的文字输出
在这里插入图片描述

不同颜色代表不同大小的模型（黄色代表的模型最大）
横轴：LM输出的下一个字的概率（是模型选择的输出，不一定正确）
纵轴：LM输出的答案是正确答案的概率
结论：大模型在输出不确定的答案时会不自信（知道自己不知道答案），小模型不太受影响
p.s. (D)中ECE：指上图中彩色折现与黑色直线所夹面积（越小越好）

Q1：有没有什么任务是模型越大完成越差的呢？

图中粉色模型的正确率呈现出U型，为什么会变差？—— “一知半解吃大亏”

有研究证明，语言模型在设有陷阱的题目中会表现出U型的正确率
Q2：模型还能不能更大？

Switch Transformer，1.6T（PaLM的3倍，GPT3的10倍）
论文地址：https://www.jmlr.org/papers/v23/21-0998.html

由于过于庞大，结构与一般的transformer有所差异，大模型中包含许多模组，每次执行任务时只调用部分模组（训练所有的参数，但使用时只使用部分参数，为了节省inference的资源）

到底要多少資料才夠

相关论文：When Do You Need Billions of Words of Pretraining Data?
其中指出， LM回答问题需要具备两种能力：
语言知识：文法与用词的能力；世界认识：常识与规则，对世界的理解

结论：在世界认识方面的能力提升需要更大量的资料
论文地址：https://arxiv.org/abs/2011.04946

资料预处理的重要性

有关资料预处理的论文：Scaling Language Models: Methods, Analysis & Insights from Training Gopher
模型名称：Gopher
论文地址：https://arxiv.org/abs/2112.11446

处理步骤：过滤有害内容—去除HTML的tag，保留项目符号—去除低品质资料—去除重复资料—过滤测试集（保证实验的严谨性）
在这里插入图片描述

去除重复资料的重要性：降低机器输出“硬背”的句子概率（1.9%降至0.1%）
（相关论文地址：https://arxiv.org/abs/2107.06499

假设：在固定的资源下，是模型更重要还是资料更重要？

相关论文：Training Compute-Optimal Large Language Models
论文地址：https://arxiv.org/abs/2203.15556

在这里插入图片描述

每一条线代表一个固定的运算资源
横轴：参数量，模型的大小（从左往右增加，M:Miliion,B:Billion）
纵轴：损失值，越小越好
（大模型小资料：思而不学；小模型大资料：学而不思，两头罔或殆，hhh）

再将每条U型曲线的最低点画在另一幅图上
在这里插入图片描述

使用模型，估算Gopher最适宜的参数量parameters和资料量Tokens（图中蓝线）
使用拟合后的直线估算出Gopher最合适的parameters为63Billion，Tokens为1.4Trillion
（该估计法并不严谨，数据点少，且直线拟合）

开发Gopher的兄弟模型：Chinchilla，相同算力，但parameters与Tokens采用估算的最佳值，
Gopher和Chinchilla比较结果如下：
在这里插入图片描述

Chinchilla完胜Gopher
以Gopher的算力为单位，去估算其他大小模型的最佳parameters和tokens
在这里插入图片描述

按照这种估算方法，GPT3和PaLM的资料量是不足的
结论：在算力固定的条件下，可能不需要过大的模型（现在的模型已经足够大），而需要更多的资料

但事实上，如果是追求更高的正确率，比起更大的模型和更多的资料，更有效的方法是找一些自然语言的任务来直接教机器，也就是对LM进行Instruction(Fine)-tuning
在这里插入图片描述

左图
横轴：参数量，表示模型大小；纵轴：完成任务正确率
线条颜色由浅至深表示Instruction-tuning的task数量增多
右图
横轴：instruction-tuning的任务task数量；纵轴：完成任务正确率
三条不同颜色的线代表不同大小的模型
p.s. Instruction-tuning不是十分耗费运算资源的工作，1800个task只耗费了pretraining的0.2%

接上述，先pretraining，再通过额外的label data去做fine-tuning，最后进行reinforcement learning，是一个常见固定套路（GPT也是使用这个方法）
那么进行fine-tuning(=prompted)和reinforcement learning(RL)有多重要呢？
在这里插入图片描述

以大小为175B的模型SFT为参照物（图中绿线），比较不同条件下，使用者对哪个模型给出的答案更满意
横轴：模型大小
纵轴：该模型赢过SFT（175B）的概率
不同颜色的线解释（从下至上）：未使用fine-tuning的GPT；预先fine-tuning的GPT；对照模型，在横轴175B处对应50%的胜率；未使用RL的PPO；使用RL的PPO
结论：即使模型不大，只要能做fine-tuning + RL是有机会胜过大模型的

chatGTP成功的关键：只有它知道人类会怎么使用这个语言模型
在这里插入图片描述
图中的FLAN模型用了许多资料对进行fine-tuning但人们对其回答的喜爱程度却没有PPO-ptx高

另闢蹊徑 — KNNLM

先回顾以下一般的语言模型LM的工作流程（以transformer为例）

KNN的工作流程
（论文地址：https://arxiv.org/abs/1911.00172

天蓝底文字：input给transformer的文字
桃红底文字：通过LM (例如transformer/rnn/lsn) 输出的representation
流程（左至右）：
1. 将训练资料training context全部input，得到representation以及对应的target
2. 计算得到的representation与其他representation的distance（相似度or距离，越小越近）
3. 把距离最近的k个向量取出，查看这k个向量原本对应的target；再将距离通过normalization转换成概率分布
4. 最后进行aggregation归纳统计，得到最后的概率分布，就是模型输出的概率

KNN的优势：不需要将冷僻的词汇当成一个类别，只要训练资料中存在这个冷僻词汇，都有可能进行正确的输出；用于training的data量可以远大于LM的量（这点不是很懂为什么是优点）
但目前单使用KNN的效果不好，往往搭配一般的LM使用

下层为一般的LM，KNN输出概率会经过加权后加入LM的分类中，作为最终的输出概率分布

左图
横轴：用于给KNN模型做距离计算的资料量（0-3B）
纵轴：可以理解为一个与正确率成反比的值（越小文字接龙能力越好）
红线：用100M的资料量训练Wiki模型
黑色虚线：同3B的资料量训练Wiki模型
蓝线：用100M的资料量训练Wiki模型搭配KNN LM
（还是不理解KNN的优势在哪，虽然训练LM的资料量可以少，但是给KNN的资料要多啊）
右图
横轴：用于给KNN模型做距离计算的资料量（0-3B）
纵轴：KNN在搭配LM使用时的最佳权值

KNN的缺点：太费时间，现场计算distances

横轴：每秒处理的tokens数量
纵轴：上文中的perplexity（越小越好）

与KNN LM相似的模型：RETRO(Retrieval Enhanced Transformer)
优势：可以回答需要记忆能力的问题（死背回答，也是KNN LM的优点）

GPT-4

热水过敏

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
李宏毅-2023春机器学习 ML2023 SPRING-学习笔记：3/17 大模型+大资料=神奇结果？

由于过于庞大，结构与一般的transformer有所差异，大模型中包含许多模组，每次执行任务时只调用部分模组（训练所有的参数，但使用时只使用部分参数，为了节省inference的资源）结论：大模型在输出不确定的答案时会不自信（知道自己不知道答案），小模型不太受影响。总所周知，大体量的模型+大量的数据，会得到更好的模型，可是原因是什么呢？横轴：LM输出的下一个字的概率（是模型选择的输出，不一定正确）不同颜色代表不同大小的模型（黄色代表的模型最大），1.6T（PaLM的3倍，GPT3的10倍）
复制链接

扫一扫