OpenAI 大神亲授，人人都能看懂的大模型入门教程（二）

最新推荐文章于 2024-07-16 10:00:00 发布

我爱学AI

最新推荐文章于 2024-07-16 10:00:00 发布

阅读量735

点赞数 19

文章标签：人工智能深度学习机器学习自然语言处理大语言模型 ai大模型 LLM

本文链接：https://blog.csdn.net/python1234_/article/details/140432400

版权

二、LLM 的未来

书接上回，接下来要讨论的是大模型是如何逐步进化的，以及目前的进展情况。

更高更快更强 - 规模化定律

首先要提到的是关于大模型效果的规模化定律（scaling law），简单说就是大模型在预估下一个词这一任务上的效果只跟两个因子相关，并且与这两个因子存在着某种函数关系，这两个因子就是模型参数量和训练数据量。只要知道了这两个因子，就可以比较置信地预估出模型在预估下一个词这个任务上的效果。

就当前来讲，这一准则还没有显现出到顶的迹象，所以在更多的数据上训练更大的模型，仍然大概率会得到更好的模型（就预估下一个词这个任务而言）。所以模型、算法本身的进步显得并不是那么必要，只要有更好的计算机，更多的数据，更大的模型，训练更长的时间，就可以“毫不费力” 的获得一个更好的模型。虽然在实践中，预估下一个词的准确性通常不是优先考虑的指标，但是从经验上看这一任务和许多我们关心的任务都有一定的关联性。

这就是目前为什么计算资源显得尤其重要的原因，因为计算资源保证了可以使用更多的数据来训练更大的模型，从而取得更好的效果。每个人都在争取更大的 GPU 集群和更多的数据，因为这些目前来看几乎保证了可以得到一个效果优异的模型。模型结构和算法上的进步也有很多人在投入其中，也取得了一些不错的成果，但从根本上来讲，规模化是提供了一条保证成功的道路。（因此前两天英伟达超越微软成为美股第一市值的公司，也算是时代造就英雄的典型了）

个人认为规模化定律这一发现具有非凡的意义，不仅在于提供了一种获取更好模型的”捷径“，更是在于如果将神经网络类比成人脑，目前大模型的参数量已经可以与人脑神经元比肩，并且在一些场景下也展现了非凡的能力。规模化定律也是指引了一条通向超越人类智能的一个方向。

向智人进化 - 学会使用工具

接下来是通过一个例子来演示一下语言模型的特性，以及它们是如何随着时间的推移而演进的。现在对 chatGPT 输入如下信息：

收集关于 scale.ai 的相关信息，包括创立时间、规模、融资轮次和估值，将这些信息通过表格组织起来。

在微调阶段，chatGPT 已经见过了很多类似的问题，因此它可以理解这个问题的具体需求。这类问题不能通过传统的语言模型（生成一个一个的字，从而组成一句话的形式）来解决，因为涉及到一些事实类的信息，需要依赖一些工具。首先一个工具是浏览器，就像我们遇到这类问题会首先想到去网上搜索一样。chatGPT 理解这个问题，然后转向搜索引擎，搜索引擎会将搜索结果文本给回 chatGPT，chatGPT 就可以根据搜索结果生成如下的回复。

chatGPT 将每一轮的融资和估值情况按照我们的需求列成了表格，并且每一轮的信息都给了引用的链接，表示这部分信息是从哪里获取的。最后一行那里写了【抱歉无法提供 A 轮和 B 轮的估值情况】，说明 chatGPT 从搜索引擎没有找到对应的信息，所以上面表格右下角那里写了【Not Available】。

因为可以观察到 C/D/E 轮的估值和融资之间大概存在着某种比例关系，所以可以让 chatGPT 大概猜测一下 A/B 轮的融资和估值。于是继续问：

根据 C、D、E 轮的融资/估值的比例关系，大概猜一下A轮和B轮的估值。

如果是人遇到这个问题，我们可能不会心算这个比例，因为心算这个数值的除法还是有点难的。同样这个运算对于 chatGPT 来讲也是有点难的，所以 chatGPT 也学会了使用计算器。计算器也是它可以使用的一项工具，于是就很容易推算出了如下结果。

chatGPT 推算出了 A 轮和 B 轮的估值分别是 7000 万和 2.83 亿，对不对无所谓，反正是猜的。现在我想让这些数据以图表的形式呈现给我，于是提出如下要求：

请将这些数据组织成2维图表的形式。x 轴代表日期，y 轴代表 scale.ai 的估值，其中 y 轴的值进行对数缩放。搞一个好看又专业的图标给我，并且图标里要带网格线。

这里 chatGPT 再次使用工具，调用了 python 的 matplotlib 库来绘制出了下面这个二维图表：

更进一步，我们可以要求模型对公司估值趋势进行预估：

基于上面的图表，请画出一条趋势线，一直延伸到 2025 年底。然后画一条代表今天这个时间的垂直线，根据绘制的趋势线，告诉我今天 scale.ai 的估值是多少。

然后我们就得到了下面这个回复：

scale.ai 在今天的估值是 1500 亿美元，到了 2025 年底将会成长为近 2 万亿美元市值的公司。

可以使用工具是使大模型变得更加强大的关键因素，现在的大模型不只是一个逐步生成文字的工具，它会将现存的一些计算基础设施都绑定在一起，并与文字交织在一起，产生一段有意义的回复。

上面展示的工具包括了进行数据分析、调用代码库、使用搜索引擎等，根据上面的信息，我现在希望 chatGPT 可以生成一幅描述 scale.ai 这个公司的图像。因为大模型可以记住上面我们询问的内容（context window），它已经对 scale.ai 这个公司有了不少的了解，再加上它本身可能记住了 scale.ai 的一些信息，并且还可以查询互联网，这时，它就可以调用另一个工具 DALL-E 来绘制图像了。

在这里插入图片描述

上面展示了 chatGPT 对工具的使用，这也和人类解决问题的思路非常相近。我们面临问题的时候并不会仅仅在我们脑海里解决问题，我们也会使用大量的工具，这一操作对大模型来讲也是如此，也越来越成为模型发展的一个方向。

多听多看多说 - 多模态融合（视觉、音频）

上面展示了 chatGPT 生成图像的能力（虽然这些图像只是调用工具的产物），其实，chatGPT 不仅可以生成图像，还可以看到图像。在 openAI 创始人之一 Greg Brockman 的一次著名展示中，他向 chatGPT 展示了一张自己用铅笔勾画出来的 MyJoke 网站的图片，chatGPT 便根据这张图片编写出了该网站的功能代码，包括 HTML 和 JavaScript 代码，你可以访问这个网站，然后看到一则小笑话。

多模态除了可以融合文本和图像之外，还涉及音频等，所以现在 chatGPT 既可以听也可以说。这种模式类似于我们面对一个对话界面，而无需输入任何文字，就像是 chatGPT 在和用户直接进行对话，你可以说任何事情，chatGPT 会通过语音给你回复。这种技术目前已经应用在了很多场景，比如音像、车载语音等，不过以前只是在某些领域的某些问题上可以语音交互，而大模型极大了拓宽了可交流的范围。

转变思维模式 - 系统一与系统二

这里需要引入《思考，快与慢》一书中系统一与系统二两种思维模式。这两种模式描述了两种不同的思维方式。系统一描述快速、直觉和自动的思维过程，比如问你 2 ✖️ 2 等于多少，我们不需要任何犹豫或计算可以立马知道等于 4，因为这个信息是即时可用的，是已经被放到缓存里的。但如果问你 17 ✖️ 24 等于多少，恐怕没有多少人可以立马给出答案，这时需要动用大脑中缓慢、理性的部分，执行若干计算和决策，最终得出答案。

再比如下国际象棋，在快速局中，没有时间进行完整的思考，更多是依靠直觉移动棋子，这时更多是使用系统一。在正式竞技对局中，有更多的时间去思考各种可能，这是一个需要人有意识去完成的事情，这就是系统二的工作方式。

目前大模型表现出来的更多是系统一的能力。它们更多是本能的进行响应，不断的生成一个个的单词，无法像人类一样进行深入思考和推理。所以现在许多人受到启发，开始研究如何赋予大模型系统二的能力。

直观上我们可以拿时间换精度，比如告诉 chatGPT 说你可以不用立刻回答我的问题，给你 30 分钟去思考答案。当然现在的模型还不具备这个能力，这也是许多人正在努力实现的目标。我们希望模型能够构建思考树，每个树枝体现不同的可能性，这样模型可以不断的反思和重构问题，从而得到更准确的答案。这是一个研究方向，现在还做不到。

扔掉教科书 - 模型的自驱成长

AlphaGo 是模型自驱成长的一个典型例子。AlphaGo 的产生经历了两个阶段，第一个阶段是不断学习人类专家的围棋对局，通过不断模仿人类的下棋方式来提升棋艺，这一阶段很有效，但最高也不会超过人类专家水平，因此这一阶段的 AlphaGo 还下不赢人类中的顶尖高手，第二阶段通过自我完善的方式，以赢得比赛作为奖励，让模型不断进化，从而超越了人类的水平。

在围棋这种封闭的场景下，模型的自驱成长是有可能的，这里可以非常容易的设置奖励机制，即赢得比赛，通过赢或者输来获取正向或负向的反馈，通过完成百万级别的对局来实现模型的自我成长。在语言模型这种开放场景下，我们只完成了第一阶段，就是教会模型如何模仿人类回答问题。

在语言模型这种开放场景下的第二阶段应该是什么样子呢？首先一个问题就是如何设置奖励机制。因为面临更广泛的场景，每个场景都有不同的问题，很难设置一个单一的简单的奖惩机制来衡量所有场景中回复的好与坏，这种开放场景下如何进行模型的自驱成长仍然是未解之谜。

各取所需 - 大语言模型超市

在我们工作生活场景中会面临非常多的任务类型，我们希望能对大语言模型进行定制，让它们成为各个领域特定任务的专家。Sam Altman 宣布成立 GPT 应用商店，这也是 OpenAI 提供定制化能力的一步。

我们可以创建自己定制的 GPT 模型，目前定制能力还只包括提供一段任务描述的指令来定制 GPT，或者通过上传一个文件，文件里可能包含特定任务的专有知识，模型在回答的时候会参考这个文件中的内容，就像 chatGPT 使用搜索引擎一样使用这个文件。

未来可能会提供对模型微调或者其他更多的定制化能力，最终希望能基于一个基础模型，通过定制化能力来应对各种各样的场景。

不只是聊天机器人 - 大语言模型操作系统

大语言模型不会是一个聊天机器人，更准确的描述应该是一个新型操作系统的内核进程，有一个中央处理器，一些存储单元，同时协调各种各样的工具来解决问题。

在未来的几年，大语言模型可能按照如下的趋势来发展。它们可以阅读和生成文本，在所有领域都拥有比人类更丰富的知识储备，还可以访问互联网或者本地文件来辅助生成内容。它们可以利用现有软件基础架构，比如 python 库、计算器等，它们具备查看和生成图像和视频的能力，它们可以听见，可以说话，可以创作音乐，它们能够学会系统二进行深入思考，能够自驱成长，能够根据特定任务进行定制和细微调整等等。

下图可以看到这个新型的操作系统，和当前的操作系统存在很多相似之处。

首先这个内存结构是等效的。可以访问本地文件（磁盘）或互联网，这个上下文窗口类似于内存，可以记住我们最近的对话内容，而模型使用这些内容来预估下一个词，这个资源明显更加宝贵，就像内存资源比硬盘资源更宝贵一样。其他的比如多进程、多线程、任务调度执行等，也有非常多的联系。

另外这个新型操作系统和当前操作系统在生态上也非常类似。在当前操作系统的生态中，有一些专有的操作系统，比如 windows 和 mac os，另外还有一大批基于 linux 的开源操作系统。同样在新型操作系统里，也有一些专有的操作系统，比如 GPT 系列、Claude 系列以及 BARD 系列，同时也有一个快速兴起并逐渐成熟的开源大语言模型生态系统，比如 Llama 系列。

新型操作系统以大语言模型为根基，组织用于解决问题的各种工具，并通过自然语言接口进行访问，这和当前操作系统的架构也是类似的。

三、LLM 安全性

待续

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

我爱学AI

关注

19
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
OpenAI 大神亲授，人人都能看懂的大模型入门教程（二）

书接上回，接下来要讨论的是大模型是如何逐步进化的，以及目前的进展情况。首先要提到的是关于大模型效果的（scaling law），简单说就是大模型在预估下一个词这一任务上的效果只跟两个因子相关，并且与这两个因子存在着某种函数关系，这两个因子就是和。只要知道了这两个因子，就可以比较置信地预估出模型在预估下一个词这个任务上的效果。就当前来讲，这一准则还没有显现出到顶的迹象，所以在更多的数据上训练更大的模型，仍然大概率会得到更好的模型（就预估下一个词这个任务而言）。
复制链接

扫一扫