如何跟大模型学习?(非常详细)零基础入门到精通,收藏这一篇就够了

905 篇文章 36 订阅
209 篇文章 4 订阅

我们提起LLM的核心逻辑和基础原理,总是会说是黑盒子,我们没办法完全搞清楚大模型在训练和推理阶段具体发生了什么使得大模型获得了相应的能力,但是其实可以通过分析在不同的训练阶段和数据结构的情况下大模型的表现来分析数据可能的影响,以及我们怎么收集和处理数据能获得更好的效果。

最近符尧博士的一篇关于大模型预训练阶段的数据分析的文章介绍了在预训练和微调阶段,不同的数据类型、比例和内容到底对于大语言模型的能力和训练速度会产生什么影响,点击阅读原文链接查看原文,非常推荐

研究的方式简单概述一下就是在模型训练的过程中不断的把模型的中间状态拿出来做分析,找到模型随着数据量和训练的过程中的各种能力的变化情况,同时文章最后也提出了,当前的开源大模型如果能把训练过程中的一些模型也开源出来,是能给大模型的研究带来更大的价值的

看完之后更加明显的感觉到了大模型和人类的相似之处,类比人类的学习知识的过程和效果,可以看到大模型在最终的能力获得的效果上跟人类非常类似,关于大模型和人类的相似之处,之前也写了一篇文章总结过

GPT跟人类到底有多像

每次想到这里,都会想起对于大模型的探索和学习除了去研究这个技术本身之外,还有更重要的部分是,通过大模型的学习来认识自己,认识自己是怎么学习的,怎么获取信息的,怎么持续进步获得新的能力

  1. 量变和质变(涌现和泛化)

我们都知道量变引起质变,但是在我们每个人自己的学习过程中多少还是容易被忽视,可能总是在抱怨看了那么多的书怎么还是没有用,其实在大模型的预训练过程也是这样的曲线,我们知道的很多能力的涌现以及泛化,其实都来自有一定程度和规模的训练之后。

所以不要抱怨为什么花了这么多时间和精力还是没有进展,去坚持花更多的时间去持续学习就好了

至于到底这个度在哪里,对不起,好像现在大模型的训练也没搞清楚,只有一直做下去才有答案

  1. 基础学科的重要性(基础技能和高级技能)

在整个大模型训练的过程中,还有一个技能颗粒度的概率,综合技能的活动一定在基础技能之后

比如两位数的加法就是单一技能,综合技能就是一位数的加法+两位数的加法+两位数的减法+…,然后最终才是综合计算的能力

我们学习数学的过程也是如此,先是加减然后乘除,最后才是更加复杂的函数等等运算,包括更加高级的技能和能力都是建立在更加基础的能力之上的

所以学好基础怎么强调都不过分,更加高级的能力可能都来自于更加基础的技能的整合

  1. 解题步骤的重要性

CoT基于思维链的结构相信大家在提示词相关的技巧中已经有见过,其实在模型训练的过程中,如果用CoT的格式化数据来做训练,会发现模型学习的速度也会变快

这个跟真实的学习过程就非常相似了,我们知道学习的过程我们需要知其然,也要知其所以然,这个过程本质就跟CoT非常类似了,就是列出思考和推导的过程,这样学习其实是更快的

同时再类比一下死记硬背,其实大模型如果数据不用CoT的格式,通过大的数量和时间也可以获得相关的能力,但是就跟学习一样,死记硬背的效果就是赶不上从逻辑上理解了来龙去脉

最后在补充一个不太严谨的视角,考试的时候写的解题过程都是有得分的,怎么说都是有价值的

  1. 学习顺序的重要性

原文中有个案例:

假设我们想教模型文本和代码能力,我们有10B文本和10B代码,我们的计算只允许我们训练10B数据。我们想最大化编码能力。以下是三种可能的解决方案:

  1. 方法1(仅代码):直接提供10B代码数据

  2. 方法2(均匀混合):将5B文本和5B代码数据均匀混合,然后同时喂给模型

  3. 方法三(数据课程):先喂5B文本,再5B代码

在这里,作者表明,在合成和简化的设置中,技能1、2、3的学习数据课程调度数据可以在技能3的数据上实现更快的学习速度。

跟基础学科的重要性一个逻辑,我们可以简化理解这个事情就是,你如果想学好代码,你至少先有比较好的基础文字理解能力

所以学习的过程也是这样,一些基础的能力你先获得了,才能有后面的事情

5. 看“杂书”的意义和价值

还是接着上面的例子,包括之前有个研究报告分析,GPT-4强大的逻辑推理能力可能跟Github的海量数据有非常大的关系,想想也是,代码里面的逻辑可能是最丰富和严谨的

我也一直觉得知识没有什么高低贵贱,学习的过程中能更多的了解、学习更多维度的知识一定没有什么坏处,你在某些领域写到的内容可能在其他领域会有非常大的价值

甚至在一些更加专业的科学领域,可能一些难题的解决方案不是研究出来的,是存在于世界上的某个角落,被一些天才发现的,这也是为什么ChatGPT这个通才的出现,可能会变相的加速很多的科学研究,毕竟它可能是世界上知识面最广的智能助手了

6.怎么高效地临时“抱佛脚”

最后我们来看看好像不是那么正经的“抱佛脚”问题,其实在大模型的整个训练过程中也有一个非常类似的过程,就是微调

微调的本质也是在比较短的时间和数据集上去让大模型在特定领域表现出较好的效果,是不是跟我们某一门考试的之前的临时抱佛脚特别的像

那微调怎么有更好的效果呢?其实就是找到一个具体特定场景的覆盖范围最大化的数据集的最小值

也就是大家会反复提到的高质量的数据集

这个高质量有两个层面的意思:

  1. 覆盖面足够,简单理解都是我用的数据是不是尽可能覆盖了所有的考点,只要覆盖到了,考试效果一定不会太差

  2. 数据集的最小值,在上面那个前提下,数据集越小越好,因为毕竟是抱佛脚,时间和成本都是有限的。要是有能力从一开始就好好学习,也就不叫抱佛脚了

所以如果转换成真的考试的抱佛脚,策略应该就是:

  1. 搞清楚全部的考点,这个是最核心的点,也是性价比最高的方式

  2. 然后基于考点在时间和精力有限的情况下去做更多的跟考点相关题目


最后再次推荐一下原文,感觉很多内容可以帮助我们更好的理解大模型本身,也帮助我们更好的认识自己,认识世界,点击阅读原文直达文章链接

AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

四、AI大模型商业化落地方案

img

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值