大模型训练十大戒律!!

1.切勿微调(Thou Shalt Not Fine-Tune):尽量写prompt,利用大模型本身的能力zeroshot,必要时辅以少量样本(few-shot examples)或检索增强生成(RAG)。微调成本高、速度慢且复杂,仅在确实需要时才进行。

注解:在一些接近大模型通用能力的场景上,随着模型基础能力的增强,微调的必要性越来越低。如果最近使用过gpt4o的接口的话,一定会被其拥有3.5的速度和4.5的效果震撼到,真的,如无必要,无需微调。

2.务必调调prompt(Thou Shalt Write a Freaking Prompt):用一个prompt创建一个baseline,并通过写prompt证明这个场景或者任务是可行的。如果写prompt就可以达到基本要求,那么微调可以进一步提升;如果prompt不起作用,微调成功的可能性就很低

注解:同第一条,相信大模型,如果你的任务与大模型本身的能力接近,不如好好调调prompt。

3.好好搞数据(Thou Shalt Review Thy Freaking Data):如果必须微调,确保你完全理解你的数据。大力修正问题数据。数据质量直接决定模型质量。

注解:数据决定了效果的上限,而模型能力只是逼近这个上限。这个机器学习老话,在大模型微调上同样适用。

4.用真实的数据(Thou Shalt Use Thy Actual Freaking Data):确保训练数据尽可能接近生产环境中模型将处理的数据。即使存在一些不完美的数据也没关系,只要整体分布一致和正确就可以。

注解:同上一条,同分布也是机器学习古老的训诫,在大模型微调中也是如此,有真实的数据,一定要用真实的数据,除非万不得已,再去蒸馏GPT4的数据。

5.必须保留测试集(Thou Shalt Reserve a Test Set):始终保留一部分数据用于测试,以评估模型的性能。

注解:就算评估是盲人摸象,你要带着尺子去摸。

6.必须选择合适的模型(Thou Shalt Choose an Appropriate Model):模型参数越多,训练就越昂贵且速度越慢。根据任务和预算选择适当的模型。不要使用过大的模型,也不要使用过小的模型。规模和参数量要匹配任务难度。

注解:参数量,数据量匹配任务难度,在所有的神经网络监督微调任务中都适用。

7.必须小步快跑评估(Thou Shalt Write Fast Evals):编写快速计算的评估指标,可以自动化计算的指标,不管是来源于规则或者模型,以便快速迭代。

注解:高频自动化评估,可以及时earlystop和监控模型异常,提高效率。小步快跑带给你更高频的刺激,从心理学上也应如此,干活儿更有干劲。

8.必须慢工细活评估(Also, Thou Shalt Write Slow Evals):花点时间编写更全面,更可靠的评估标准和评估指标,别管这些指标比较麻烦,设置要推理更大的reward模型,或者需要人工标注。都可以,目的是为了更深入地了解模型的性能。

注解:评估做不好的话,会影响实验效率,实验效率可以折算成单位时间的算力消耗, 可以推导出评估做不好 = 费钱费时。所以你做实验慢了,相当于比别人少了GPU。openai不仅仅卡多,还有实验效率倍增的buff,相当于 卡 * 效率倍数。

9.不要即发即弃(Thou Shalt Not Fire and Forget):不要执行一次性的模型训练后就结束。持续优化模型和pipeline。

注解:把流程串起来,形成pipeline,能更科学和高效地做事。

10.别太认真(Thou Shalt Not Take the Commandments Too Seriously):不要死板地遵循这些建议。根据具体情形调整建议的适用性。

注解:拥抱变化,大模型更应如此。尤其是有openai这样的存在。


原文地址:https://docs.google.com/presentation/d/1IIRrTED0w716OsU_-PL5bONL0Pq_7E8alewvcJO1BCE/edit#slide=id.g2c28ff05645_0_0

文章还提到了一个有趣的事实,即作者使用Gemini工具来总结这篇文章。

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

  • 24
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值