吴恩达DeepLearning.AI官方课程系列——Pretraining LLMs

最新推荐文章于 2024-08-08 14:28:23 发布

AI大模型 lose and dream

最新推荐文章于 2024-08-08 14:28:23 发布

阅读量755

点赞数 18

文章标签：人工智能 chatgpt 语言模型自然语言处理 llama 开源机器学习

本文链接：https://blog.csdn.net/lhx17673139267/article/details/140858033

版权

在这个系列里，我们将会学习在DeepLearning.AI上经典且有趣的的short course内容，我们可以登录网页“Courses - DeepLearning.AI”来进行学习。比如说最新推出的有关于联邦学习的内容也是非常有趣的，小伙伴们想机智流跟进的可以积极在评论区进行互动，后续可能也会进行讲解。

那今天我要讲解的是最近新推出的课程 Pretraining LLMs，也就是我们常说的预训练大语言模型或者是基座模型（base model）。这门课是面向于初学者（Beginner）的课程，因此也是讲解了非常多和大语言模型相关的基础知识，我们即便对代码不太熟悉也能够在里面学习到部分大语言模型的基础知识。下面就让我们一起来看看这门课讲了哪些主要内容吧！

为什么需要预训练大语言模型？

在聊到预训练大语言模型中，我们其实需要知道的是到底大语言模型是怎么运作的。简单来说，其实对于无论是当下的ChatGPT还是Claude甚至是文心一言等等，其实这些通过Transformers算法结合大量文本信息训练出来的大语言模型本质上做的事情就是通过前面的内容来预测下一个词是什么。

就比如上面这个例子，我输入了“Recite the first law”给到预训练的大语言模型，那这个预训练的模型就会先接一个“A”，然后把A放到上下文里作为输入传进去，然后继续输出robot，之后就一直重复这个过程，直到输出（Ouput）的是[end]这样一个特殊符号后才会停止。

但是我们实际使用会发现的是，预训练模型和我们现在面对的那些商用模型（上面提到的ChatGPT，Claude等）差别非常大。当我们问预训练模型一个问题的时候，其并不会回答我们的问题，甚至会一直重复这一句话。然而我们使用感觉较好的这些大语言模型是可以回答我们的问题，并且有些还可以调用外部的工具，比如说链接数据库，或者说更高级一点的使用RAG或者Agent技术。这是不是在改变了大语言模型的本质呢？

其实这并没有改变大语言模型做词语接龙的本质。之所以这些模型能够更加好的与人进行沟通只不过是因为在预训练模型后我们还对其进行了微调以及对齐等的工作，让其能够更像人说话罢了。并且这些所谓的RAG或者Agent其实只是一些像[end]这样的特殊符号，当大语言模型输出到一个特殊符号的时候，程序就会让其去调用工具然后返回一个结果填入到这个特殊符号里然后继续进行词语接龙。

虽然经过微调和对齐后的模型能更好的与人沟通，但是对于大语言模型的能力而言，最关键的还是预训练模型的好坏。一个经过大量高质量数据预训练过的模型即便只是简单进行对话数据集的微调也能展示出不错的效果，但是假如一个被低质量数据训练过的模型即便再努力的进行微调其实出来的效果也是不会特别好的。所以从这里我们就能够看得出，高质量且合适的数据对于大语言模型来说是至关重要的。

而且我们可以想一下，假如一个大语言模型的所有训练资料都是英文的，它会在我们问中文问题的时候回答出来嘛？显然并不会。即便是我们在微调的时候假如一些中文的内容其实也并不足够的。因此很多时候我们得真正得进入预训练的大模型并且对齐进行整体参数上的调整才能让其从本质上行进行改变和提升。

比如说课程中使用LLaMA这款由Meta开源的大模型为例，由于LLaMA在训练的过程中韩语的资料占比极少，因此其回答的完全是错误的。即便我们用了一些韩语的资料进行微调，回答的内容也是错漏百出的。但是假如我们把很大量的韩语资料对预训练模型进行改造，那得到的结果还是比较不错的，从这里我们也能够看出调整预训练模型的重要性。

数据准备

上面我们也提到了对于大语言模型而言，其最关键的其实就是收集高质量的数据。但是可能大家会好奇说，到底什么样的数据能够训练出现在这种大模型呢？我们又怎么去看数据集到底是好是坏呢？

训练所需的数据

其实对于预训练的大模型而言，一般使用的就是像是书本、代码、文章、维基百科、网络页面等等这部分内容来训练。而对于模型微调而言，则是通过人类或机器生成的对话对（一问一答）来进行训练的。

之所以微调和预训练的数据集类型有差别主要是两者的目标并不相同。**对于预训练的大语言模型而言，其目的是让大语言模型有着基本的语言能力。**就像我们刚出生的小朋友一样，他们并没有任何正常说话的能力，可能他们听我们说话多了也会学着说几句，但是并不会知道说这个字是啥意思，也不会自己组织句子。这个时候我们只需要不断给予输入即可。

对于孩子而言，由于还不会阅读，因此我们输入的主要方式还是通过对话倾听或者看看外面的自然风景。而对于大语言模型而言，其主要的输入手段就是互联网上的文字、图片和视频内容，那这些内容都将会成为其知识库来让其拥有一定的语言读写能力。

**而对于微调模型而言，其目的其实就是让其掌握像人一样说话的能力。**和长大后的孩子一样，当他们开始能牙牙学语以后，我们是不是慢慢就会去教他们如何正确的说出一个句子来表达自己的想法，后续还要前往幼儿园和学校进一步学习语法等知识，这样他们才能够逻辑清晰地与他人进行沟通交流或者写作。

大语言模型也是类似的，其通过了预训练后就已经掌握了基本的语言能力，并且由于其阅读了网络上大量的文本内容，其知识其实是非常丰富的，甚至可以说是上知天文下知地理。但是他们的问题就是在于说不懂得如何把这部分的知识正确的阐述出来。这时候我们就需要通过人类或者机器生成的对话对来让其学着如何表达出来。那前面说的模型对齐其实更多的是调整他们的三观让其能够不做违背人类社会伦理道德的事情。

所以这也是为什么上面的那个图片提到的说预训练的模型更像是让大语言模型去读书，去学习知识。而微调更像是让大语言模型去考试，去真正的将知识里的东西运用起来。

数据的质量

那无论对于预训练模型还是说微调模型而言，数据的质量都是至关重要的。在课程了如何定义好的数据和坏的数据，不好的数据总是重复的、有误的、不连贯的、有不安全信息的。

比如说下面这张图的第一个例子中，文字的内容就是有两句重复的话，因此我们需要识别出来并删除其中的一句。另外就如第二个例子中的，假如我们需要训练特定语言的模型，我们也需要找到除了该语言外的内容然后清楚。

在第三个例子中，原本的内容里有一些像是stupid, idiot这类脏话，其实在训练模型的时候也是需要尽量避免以免到处在说脏说。毕竟大语言模型就像我们自己的孩子，我们喂他们什么东西他们就会输出什么东西。就像父母会尽量避免孩子在正式场合说脏话一样，假如我们从小在一个不说脏话的环境里说脏话的机会也会少点。

第四个例子其实就是清除掉一些隐私的信息，比如说特定人的姓名、地址和电话号码。之前其实就有一个隐私泄露的典型问题，就是我们和ChatGPT或者Copilot这样的模型说让其扮演外婆讲睡前故事，睡前故事的内容是微软的激活码。然后这些大语言模型就真的输出了一些能用的激活码！所以说隐私问题也是需要在数据清洗阶段警惕的。

最后一个例子其实就是删掉一些我们平常正式对话中不太会出现的一些符号内容，比如突然的大写或者多个感叹号这种。因为大语言模型主要做的就是通用的内容，除非是做纯粹的对话聊天类大语言模型，不然清理掉这些内容也是必要的。

实际使用

那在具体的实操过程中，课程展示了四步的数据清理：

1.筛选出过短的内容并删掉

由于过短的内容并不会有很丰富的语义信息，所以我们会筛选掉那些少于3行的文字，从而保证整体的数据质量。

2.删除重复的内容和信息

我们需要找到前一句和后一句内文字重复大于20%的内容，然后将其中一句删掉，从而保证前后的内容不要过分的重复。

3.删除重复的文档

除了内部的一些语句的重复以外，假如有相同的文档进行训练的话也会影响整体模型的效果。比如在书生浦语实战训练营中，我们就曾试过用一句话重复2w遍然后给大模型微调，然后发现得到的模型就只会说这一句话了。因此也可以看出太多重复的内容会真的影响模型的输出。

4.删除无关的语言

假如我们训练的模型是特定的语言，我们就需要删掉除该语言以外的内容从而保证其纯粹性。当然就像人类一样，多语其实会让孩子脑子开发更多，但是假如其均衡性不能得到很好的保证的话，对于大语言模型而言还不如只保留其中一种从而避免出错。

开源工具

当然我们也可以采用一些开源的工具来进行数据处理，比如说该课程讲授的企业UpstageAI推出的数据处理工具Dataverse。

除此之外，InterLM官方也推出了自己的数据处理工具Label LLM，同样也可以帮助我们快速的对语言数据进行标注。

那除了标注平台以外，数据集的获取除了我们自行收集的行业专业数据库以外，我们还可以通过多个渠道获取，包括Huggingface、GitHub、OpenDataLab以及ModelScope等。这些平台中也是开源了大量的相关数据供开发者免费的进行使用。

结语

机智流后续会继续跟进解读吴恩达DeepLearning.AI官方课程系列——Pretraining LLMs课程，欢迎小伙伴们在留言区积极互动转发分享，你们的支持是我们更新最大的动力~

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~
在这里插入图片描述

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓
在这里插入图片描述

AI大模型 lose and dream

关注

18
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
吴恩达DeepLearning.AI官方课程系列——Pretraining LLMs

机智流后续会继续跟进解读吴恩达DeepLearning.AI官方课程系列——Pretraining LLMs课程，欢迎小伙伴们在留言区积极互动转发分享，你们的支持是我们更新最大的动力~
复制链接

扫一扫