大语言模型白皮书，让你彻底搞懂训练，微调和提示工程

辣卤牛肉面

于 2024-08-23 18:16:33 发布

阅读量369

点赞数 8

文章标签：语言模型人工智能自然语言处理 langchain 产品经理音视频 pdf

本文链接：https://blog.csdn.net/2301_76168381/article/details/141472267

版权

当下，像大语言模型这样的生成式AI很火，相应的学习资源也如雨后春笋，我从中挑选一份好的学习资料分享给大家。

一共有两个pdf文档，一个教如何从零开始训练一个大模型，另一个教如何微调大模型，每个文档仅有23页，如果想涵盖全部内容就难免会缺少一些细节，对于想入门LLM的可以用它先来形成一个整体的思维脑图，然后再去补充细节。

下面是对LLM Training内容的总结：

模型搭建选择从头训练LLM并非唯一选择，还可以使用开源LLM或者调用商业LLM API，需要需求、数据量、技术能力等因素进行选择。 模型扩展定律讨论了模型大小和数据量之间的关系，总的来说，扩大模型，训练数据量也应按比例增加。 硬件考量训练大模型很依赖硬件资源，需要大量GPU和高带宽网络，需要在内存和计算效率之间平衡，同时利用各种并行化技术来加快训练。数据处理` `收集高质量、高容量、高多样性的数据，并对数据进行清洗、抽样、去重等预处理，与CV相比，NLP需要一个特殊的操作：Tokenization，并介绍了几种常用的Tokenization方法。预训练步骤首先选择模型架构，是像GPT那样选择Decoder架构还是像Bert那样选择Encoder架构？接下来设置超参数。 模型评估基准测试，少样本学习评估偏差与毒性分析和记录模型的潜在不良关联，采取缓解措施指令调优显著改善零样本性能，针对特定类型任务效果更好通过人类反馈的强化学习在指令调优的基础上加入人类偏好,提高安全性

下面是对LLM fine-tuning and prompting内容的总结：

大模型分为通用大模型和专业大模型。

通用大模型是在大规模语料(互联网，百科，电子书)上预训练完成，例如GPT，Bert。

专业大模型是在通用大模型基础上，通过微调或者提示工程使其善于完成某个下游任务，例如，ChatGPT。

如何从通用大模型变成专业大模型？

从模型参数的角度可分为三种类型：模型参数全量更新，模型参数部分更新，模型参数不变。

模型参数全量更新

该方法有个英文名：full fine-tuning或者fine-tuning，需要更新全部参数来达到通用大模型具有适配下游任务的能力。

常见的方法有迁移学习，这个在CV领域很常见，通常是在像ImageNet这样的大规模图像数据集上预训练一个模型，然后用某个领域的图像进行微调。

另一个是知识蒸馏，就是让一个小的学生模型向一个大的老师模型学习新任务的特征表示。

模型参数部分更新

参数全量更新费时，费力，那能不能只改变部分参数就能得到和全量更新差不多的效果呢？当然有，这种方法也有一个洋气的英文名：parameter-efficient fine turning。常见的方法有LoRA，模型的参数可以视为参数矩阵，这个矩阵很大，LoRA的方法是将这个大矩阵分解为两个小矩阵的乘积，这两个小矩阵的乘积被视为原始矩阵的低秩近似，训练过程中只更新这两个小矩阵使其逐步逼近原始矩阵，这样更新的参数量大大减小。

另一种方法是Prefix-turning，模型参数不变，通过增加任务相关的前置向量来实现。

模型参数不变

无论是模型参数全量更新还是部分更新，一般都需要手里有一定量某个领域的训练数据，既然要训练就难免费事，费力，那有没有省时，省力的方法呢？当然有，那就是提示工程，也就是模型参数不变，从提示上下功夫。

一种常见的方法是提示工程，就是用科学的方法构造或者修改提示，使模型更了解你的意图。

另一种方法是提示微调，也叫Prompt-turning，也就是增加额外的用于微调提示的层，通过训练来学习这些层的参数。

fine-turning和prompting如何选择？

两者各有千秋，且不矛盾，通常可以结合两者各自的优点来达到更好的效果，例如，你可以用过fine-turning微调一个预训练模型，在推理时通过提示工程来优化性能。

如果非要二选一，也可以从任务类型，训练数据规模，硬件配置等方面考虑。

在fine-turning过程中，还会用到基于人类反馈的强化学习RLHF，prompting过程中也会使用分解思想的chain-of-thoughts，这些在白皮书中都有介绍。

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

路线图很大就不一一展示了 （文末领取）
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目，地址、代码、文档等等全都下载共享给大家一起学习！
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告（持续更新）👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

辣卤牛肉面

关注

8
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大语言模型白皮书，让你彻底搞懂训练，微调和提示工程

当下，像大语言模型这样的生成式AI很火，相应的学习资源也如雨后春笋，我从中挑选一份好的学习资料分享给大家。一共有两个pdf文档，一个教如何从零开始训练一个大模型，另一个教如何微调大模型，每个文档仅有23页，如果想涵盖全部内容就难免会缺少一些细节，对于想入门LLM的可以用它先来形成一个整体的思维脑图，然后再去补充细节。下面是对LLM Training内容的总结：模型搭建选择模型扩展定律讨论了模型大小和数据量之间的关系，总的来说，扩大模型，训练数据量也应按比例增加。硬件考量。
复制链接

扫一扫