李宏毅生成式AI课程笔记（持续更新

吃豆人编程

于 2023-10-15 21:38:39 发布

阅读量806

点赞数

分类专栏：机器学习文章标签：人工智能笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46369272/article/details/133848251

版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

文章探讨了ChatGPT的预训练方法（逐个击破与一次到位）、生成式学习策略（如Adapter和ChainofThoughtPrompting），以及大模型性能提升与参数量、资料的关系，强调了模型与数据的平衡重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

01 ChatGPT在做的事情

02 预训练（Pre-train）

ChatGPT

G-Generative

P-Pre-trained

T-Transformer

GPT3 ----> InstructGPT（经过预训练的GPT3）

生成式学习的两种策略

我们在使用ChatGPT的时候会注意到，网站上的回答几乎是一个字一个字给出来的，这里就是生成式学习的两种策略：

“逐个击破”（文字）与“一次到位”（影像）

三种结构数据：文本（由token构成）、影像（像素点）、语音（采样频率）

中文的token -----> 字
英文的token -----> word piece，如unbreakable ----> un break able

Finetuning 与 Prompting

Adapter，不修改模型本身参数，插入一个额外的模组

上图包括了几种Adapter：Bitfit、Houlsby、AdapterBias、Prefix-tuning、LoRA

思维链

Chain of Thought(COT) Prompting

思维链可以大大提高模型的准确率

上图是在要求大语言模型按步骤输出答案和直接要求其输出答案的准确率区别。

03 大模型+大资料

大模型的顿悟

在某个参数量之前，增加参数量不会提高模型的正确率，当提高参数规模到一定程度，会出现准确率突然变高的情况（如下图）

同理，也只有在参数量达到一定程度的时候，思维链和微调才能起作用，如下图：

模型是否知道自己在胡说八道，在参数量足够大的时候，模型才拥有这个能力，如下图：

模型与资料的平衡

足够大的时候，模型才拥有这个能力，如下图：

[外链图片转存中…(img-MTYfwvWJ-1697377074486)]

模型与资料的平衡

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。