为什么程序员都要了解GPT,学会构建AI大模型?

说起 GPT-4,小异想用一个词来形容:恐怖。

这个人工智能模型的强大,甚至让图灵奖获得者约书亚·本希奥(Yoshua Bengio)和特斯拉 CEO 埃隆·马斯克(Elon Musk)等人都感到恐惧。他们在一封公开信中联名呼吁所有AI实验室停止开发比GPT-4更强大的模型。就连ChatGPT的创始人萨姆·阿尔特曼(Sam Altman)也表示自己对GPT-4仍未完全理解,只能通过不断向它提问,并根据它的回答猜测其“思路”。

大模型时代,火爆出圈的ChatGPT让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

为此,黄佳总结自己在NLP 预训练大模型应用领域的经验,编写了**《GPT图解大模型是怎样构建的》**一书。旨在帮助程序员理解GPT大模型的发展和应用、在AI浪潮中抓住机遇并构建自己的大模型,以及利用ChatGPT API开发出令人惊叹的应用产品。

[图片
那么,从0到1构建大模型,总共需要几步呢?我结合这本书的重点之处,分享作者如何引导读者入门,希望能对大家有所启发。

1

从0到1,梳理生成式语言模型的发展脉络

自然语言处理(NLP)技术从最初的N-Gram和词袋模型,发展到强大的神经网络模型,最终演化为现代的预训练语言模型,如BERT和GPT。

在书中,作者巧妙地对这些技术一一进行解码,厘清了它们的传承关系。读者可以跟着本书追本溯源,在掌握语言模型的经典和主流算法的同时,还能够看到这些技术是如何发展起来的。这也正是本书的可贵之处,它能引导读者思考自然语言处理技术是怎么从0到1一步一步走到今天的

■ N-Gram 和 Bag-of-Words:都是早期用于处理文本的方法,关注词频和局部词序列。

■ Word2Vec:实现了词嵌入方法的突破,能从词频和局部词序列中捕捉词汇的语义信息。

■ NPLM:基于神经网络的语言模型,从此人类开始利用神经网络处理词序列。

■ RNN:具有更强大的长距离依赖关系捕捉能力的神经网络模型。

■ Seq2Seq:基于 RNN 的编码器-解码器架构,将输入序列映射到输出序列,是Transformer 架构的基础。

■ Attention Mechanism:使 Seq2Seq 模型在生成输出时更关注输入序列的特定部分。

■ Transformer:摒弃了 RNN,提出全面基于自注意力的架构,实现高效并行计算。

■ BERT:基于 Transformer 的双向预训练语言模型,具有强大的迁移学习能力。

■ 初代GPT:基于 Transformer 的单向预训练语言模型,采用生成式方法进行预训练。

■ ChatGPT:从 GPT-3 开始,通过任务设计和微调策略的优化,尤其是基于人类反馈的强化学习,实现强大的文本生成和对话能力。

■ GPT-4:仍基于 Transformer 架构,使用前所未有的大规模计算参数和数据进行训练,展现出比以前的 AI 模型更普遍的智能,不仅精通语言处理,还可以解决涉及数学、编码、视觉、医学、法律、心理学等各领域的难题,被誉为“通用人工智能的星星之火”(Sparks of Artificial General Intelligence)。

2

从0到1,拆解大语言模型基石 Transformer 架构

语言模型算法爆发式迭代,不断推动自然语言处理的发展。本书的案例将精选早期的N-gram以及基于浅层神经网络的NPLM来详细讲解这一演变脉络,并逐步过渡到基于深层网络的语言模型(生成式语言模型GPT)。与以往不同的是,GPT模型中深层网络不再使用传统的CNN、RNN或LSTM结构,而是采用了表达能力更强大的Transformer。其核心思想是通过Transformer模型对海量文本进行无监督学习,以最大化语句序列的出现概率。

Transformer 是几乎所有预训练模型的核心底层架构,也是本书的核心内容。因此在讲解GPT模型时会细致讲解“Transformer的思想是什么,其核心组件有哪些,为什么其表达能力更强”。

在第6课中,作者就提到从0到1逐个组件拆解大语言模型基石——Transformer架构,通过将Transformer架构拆解成多头自注意力、逐位置前馈网络、正弦位置编码表、填充位置掩码、编码器层、编码器、后续位置掩码、解码器层以及解码器,最终搭建自实现的Transformer,从而完成机器翻译任务。

图片

除此之外,作者还提前在第4、5课中分别介绍了Transformer基础架构(Seq2Seq架构)和Transformer核心机制(注意力),提前帮大家打好基础。

Seq2Seq架构在一个拥有8万个中英翻译的真实平行语料库中,利用不同的时序模型以及框架完成机器翻译任务,并且利用BLUE指标进行评价。

图片

Transformer核心机制从点积注意力入手,了解注意力以及自注意力中的QKV的区别,逐步实现多头缩放点积自注意力机制,加入注意力掩码,从而对Seq2Seq架构进行重构,实现多头自注意力的编解码器结构。

图片

3

从0到1,训练出你的简版生成式GPT

这本书系统地梳理了自然语言处理从诞生初期到进入深度学习时代的发展历程,深入解析了Transformer架构以及GPT模型家族的独特之处,尤其是ChatGPT基于人类反馈的强化学习训练原理。书中还通过几个简单的实战案例,让读者充分体验了预训练大模型的魅力。

最后,在第8课中,黄佳老师将带领你从0到1训练你的简版生成式GPT,这将是一次绝佳的学习机会,不容错过!

图片

实战1: 结合第7课的WikiGPT,加入Movie Dialog语料库对WikiGPT进行微调,使得其获得对话能力从而得到minichatGPT 。

图片

实战2: 利用DeepSpeed框架训练一个开源的1.3Bchatgpt模型,深入了解GPT3 - GPT3.5 的训练机制改变,了解SFT(Supervised Fine Tuning)、奖励模型微调(RW)、 PPO(Proximal Policy Optimization)算法以及RLHF(Reinforcement Learning Human Feedback)。

图片

可以说,这是一本干货满满、诚意十足的书籍,特别适合NLP领域的学生、研究人员,以及任何对ChatGPT和生成式模型有兴趣的人阅读,也适合基础不深但是想入门AI的初学者学习。

通过这本书:

· 你将获得现代NLP技术的关键内核和完整脉络(摒弃一切已经不需要过多了解的过时东西)!

· 你将掌握NLP领域编程基本功和PyTorch主要内容!

· 你将搭建起一个属于自己的简版ChatGPT(生成式语言模型)!

· 你将掌握注意力机制和Transformer架构的核心思想以及代码实现!

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值