本文全面介绍大模型的定义、特点、发展历程和应用领域,详细解释了涌现能力、泛化能力和微调技术,分析了研发大模型的数据、算力和算法壁垒,并介绍了市面主流大模型及评测体系。同时,探讨了训练大模型的并行计算策略,以及生成式与判别式模型的区别与应用场景,为初学者提供了系统的大模型知识框架。
1、 大模型的定义
(1)大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。
(2)大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。
(3)大模型本质上是一个使用海量数据训练而成的深度神经网络模型,其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。
(4)AI大模型是“人工智能预训练大模型”的简称。AI大模型包括了两层含义,一层是“预训练”,另一层是“大模型”,两者相结合产生了一种新的人工智能模式,即模型在大规模数据集上完成了预训练后无需或仅需要少量数据的微调,就能直接支撑各类应用。其中,预训练大模型,就像知道所有大量基础知识的学生,完成了通识教育,但是还缺少实践,需要去实践后得到反馈后再做出精细的调整,才能更好地完成任务。
大模型和小模型有什么区别?
(1)小模型通常指参数较少、层数较浅的模型,它们具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的场景,例如移动端应用、嵌入式设备、物联网等。
(2)而当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,其表现出了一些未能预测的、更复杂的能力和特性,模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为“涌现能力”。
(3)而具备涌现能力的机器学习模型就被认为是独立意义上的大模型,这也是其和小模型最大意义上的区别。相比小模型,大模型通常参数较多、层数较深,具有更强的表达能力和更高的准确度,但也需要更多的计算资源和时间来训练和推理,适用于数据量较大、计算资源充足的场景,例如云端计算、高性能计算、人工智能等。
2、大模型相关概念区分
(1)大模型(Large Model,也称基础模型,即 Foundation Model):是指具有大量参数和复杂结构的机器学习模型,能够处理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。
(2)超大模型:超大模型是大模型的一个子集,它们的参数量远超过大模型。
(3)大语言模型(Large Language Model):通常是具有大规模参数和计算能力的自然语言处理模型,例如 OpenAI 的 GPT-3 模型。这些模型可以通过大量的数据和参数进行训练,以生成人类类似的文本或回答自然语言的问题。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。
(4)GPT(Generative Pre-trained Transformer):GPT 和 ChatGPT 都是基于 Transformer 架构的语言模型,但它们在设计和应用上存在区别。GPT 模型旨在生成自然语言文本并处理各种自然语言处理任务,如文本生成、翻译、摘要等。它通常在单向生成的情况下使用,即根据给定的文本生成连贯的输出。ChatGPT 则专注于对话和交互式对话。它经过特定的训练,以更好地处理多轮对话和上下文理解。ChatGPT 设计用于提供流畅、连贯和有趣的对话体验,以响应用户的输入并生成合适的回复。
3、 大模型的发展历程

(1)萌芽期(1950-2005):以 CNN 为代表的传统神经网络模型阶段
-
1956 年,从计算机专家约翰·麦卡锡提出“人工智能”概念开始,AI 发展由最开始基于小规模专家知识逐步发展为基于机器学习。
-
1980 年,卷积神经网络的雏形CNN**诞生。
-
1998 年,现代卷积神经网络的基本结构LeNet-5**诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续深度学习框架的迭代及大模型发展具有开创性的意义。
(2)探索沉淀期(2006-2019):以 Transformer 为代表的全新神经网络模型阶段
-
2013 年,自然语言处理模型 Word2Vec 诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据。
-
2014 年,被誉为 21 世纪最强大算法模型之一的GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段。
-
2017 年,Google 颠覆性地提出了基于自注意力机制的神经网络结构——Transformer**架构,奠定了大模型预训练算法架构的基础。
-
2018 年,OpenAI 和 Google 分别发布了 GPT-1 与 BERT 大模型,意味着预训练大模型成为自然语言处理领域的主流。
-
在探索期,以 Transformer 为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升。
(3)迅猛发展期(2020-至今):以 GPT 为代表的预训练大模型阶段
-
2020 年,OpenAI 公司推出了GPT-3,模型参数规模达到了 1750 亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化。
-
2022 年 11 月,搭载了GPT3.5的 ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网。
-
2023 年 3 月,最新发布的超大规模多模态预训练大模型——GPT-4,具备了多模态理解与多类型内容生成能力。
-
在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如 ChatGPT 的巨大成功,就是在微软Azure强大的算力以及 wiki 等海量数据支持下,在 Transformer 架构基础上,坚持 GPT 模型及人类反馈的强化学习(RLHF)进行精调的策略下取得的。
4、 大模型的特点
(1)巨大的规模: 大模型包含数十亿个参数,模型大小可以达到数百 GB 甚至更大。巨大的模型规模使大模型具有强大的表达能力和学习能力。
(2)涌现能力:涌现(英语:emergence)或称创发、突现、呈展、演生,是一种现象,为许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。引申到模型层面,涌现能力指的是当模型的训练数据突破一定规模,模型突然涌现出之前小模型所没有的、意料之外的、能够综合分析和解决更深层次问题的复杂能力和特性,展现出类似人类的思维和智能。涌现能力也是大模型最显著的特点之一。
(3)更好的性能和泛化能力: 大模型通常具有更强大的学习能力和泛化能力,能够在各种任务上表现出色,包括自然语言处理、图像识别、语音识别等。
(4)多任务学习: 大模型通常会一起学习多种不同的 NLP 任务,如机器翻译、文本摘要、问答系统等。这可以使模型学习到更广泛和泛化的语言理解能力。
(5)大数据训练: 大模型需要海量的数据来训练,通常在 TB 以上甚至 PB 级别的数据集。只有大量的数据才能发挥大模型的参数规模优势。
(6)强大的计算资源: 训练大模型通常需要数百甚至上千个 GPU,以及大量的时间,通常在几周到几个月。
(7)迁移学习和预训练:大模型可以通过在大规模数据上进行预训练,然后在特定任务上进行微调,从而提高模型在新任务上的性能。
(8)自监督学习:大模型可以通过自监督学习在大规模未标记数据上进行训练,从而减少对标记数据的依赖,提高模型的效能。
(9)领域知识融合:大模型可以从多个领域的数据中学习知识,并在不同领域中进行应用,促进跨领域的创新。
(10)自动化和效率:大模型可以自动化许多复杂的任务,提高工作效率,如自动编程、自动翻译、自动摘要等。
5、 大模型应用领域
大模型广泛应用于多个领域,包括但不限于以下几个方面:
(1)自然语言处理(NaturalLanguage Processing,NLP):大模型在NLP领域中具有显著的影响力。例如,GPT-3模型能够生成自然语言文本、进行对话和回答问题,BERT模型在语义理解和文本分类任务上表现出色。
(2)计算机视觉(ComputerVision):大模型在图像识别、目标检测、图像分割等计算机视觉任务中有重要应用。例如,深度卷积神经网络(CNN)的大型变体在图像分类竞赛中取得了卓越成绩。
(3)语音识别(SpeechRecognition):大模型在语音识别领域有广泛应用,帮助改善语音转文字的准确性和自然度。例如,基于循环神经网络(RNN)的大模型在语音识别系统中起着重要作用。
(4)推荐系统(RecommendationSystems):大模型在个性化推荐系统中扮演着重要角色。它们可以根据用户的历史行为和兴趣,提供个性化的推荐结果,帮助用户发现感兴趣的内容。
(5)强化学习(ReinforcementLearning):大模型在强化学习领域也得到广泛应用。例如,AlphaGo和AlphaZero就是基于大模型和深度强化学习技术开发的,取得了在围棋和其他棋类游戏中超越人类水平的成果。
(6)除了以上领域,大模型还在金融预测、医学影像分析、自动驾驶、机器人控制等多个领域有所应用。大模型的强大表示能力使其能够处理复杂的数据和任务,并取得令人瞩目的性能。
6、 大模型的分类
(1)按照输入数据类型的不同,大模型主要可以分为以下三大类:

-
语言大模型**(NLP)**:是指在自然语言处理(Natural Language Processing,NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。例如:GPT 系列(OpenAI)、Bard(Google)、文心一言(百度)。
-
视觉大模型**(CV)**:是指在计算机视觉(Computer Vision,CV)领域中使用的大模型,通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。例如:VIT 系列(Google)、文心UFO、华为盘古 CV、INTERN(商汤)。
-
多模态大模型:是指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了 NLP 和 CV 的能力,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。例如:DingoDB 多模向量数据库(九章云极 DataCanvas)、DALL-E(OpenAI)、悟空画画(华为)、midjourney。
(2)按照应用领域的不同,大模型主要可以分为 L0、L1、L2 三个层级:
-
通用大模型****L0:是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法,在大规模无标注数据上进行训练,以寻找特征并发现规律,进而形成可“举一反三”的强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于 AI 完成了“通识教育”。
-
行业大模型****L1:是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度,相当于 AI 成为“行业专家”。
-
垂直大模型****L2:是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果。
7、 大模型的泛化与微调
模型的泛化能力:是指一个模型在面对新的、未见过的数据时,能够正确理解和预测这些数据的能力。在机器学习和人工智能领域,模型的泛化能力是评估模型性能的重要指标之一。
什么是模型微调:给定预训练模型(Pre-trained model),基于模型进行微调(Fine Tune)。相对于从头开始训练(Training a model from scatch),微调可以省去大量计算资源和计算时间,提高计算效率,甚至提高准确率。模型微调的基本思想是使用少量带标签的数据对预训练模型进行再次训练,以适应特定任务。在这个过程中,模型的参数会根据新的数据分布进行调整。这种方法的好处在于,它利用了预训练模型的强大能力,同时还能够适应新的数据分布。因此,模型微调能够提高模型的泛化能力,减少过拟合现象。
常见的模型微调方法:
Fine-tuning:这是最常用的微调方法。通过在预训练模型的最后一层添加一个新的分类层,然后根据新的数据集进行微调。
Feature augmentation:这种方法通过向数据中添加一些人工特征来增强模型的性能。这些特征可以是手工设计的,也可以是通过自动特征生成技术生成的。
Transfer learning:这种方法是使用在一个任务上训练过的模型作为新任务的起点,然后对模型的参数进行微调,以适应新的任务。
8、 研发大模型的核心壁垒
大模型的核心壁垒包括数据、算力、算法。
从算力上看,训练ChatGPT这样的生成式AI需要至少1万张英伟达A100显卡,单张显卡的价格目前是六七万,性能更优的V100单价8万元人民币,也就是说光算力投入至少就要达到六七个亿以上,只有少数头部公司和机构能承担得起。对于商业机构而言,花几个亿买一堆显卡,还不一定能产出成果,这是必须要思考的问题。接下来是数据和算法,算法比较好理解,比如开发框架、优化算法。数据方面,中国不缺数据,甚至互联网数据比美国还要多,但是选择哪些数据去训练、采用什么样的方式处理,这些都是核心的壁垒。
9、 市面大模型及评测
A:大模型举例
Chat-GPT: https://openai.com/gpt-4
通义大模型:https://tongyi.aliyun.com/
文心一言大模型:https://yiyan.baidu.com/
盘古大模型:https://pangu.huaweicloud.com/
抖音豆包大模型:https://www.doubao.com/chat/
讯飞星火:https://xinghuo.xfyun.cn/
谷歌Gemini: https://gemini.google.com/
腾讯混元:https://hunyuan.tencent.com/
B:大模型测评
司南 OpenCompass2.0评测体系官网:https://opencompass.org.cn/
GitHub 主页:https://github.com/open-compass/OpenCompass/
SuperCLUE,C-Eval,MMLU,FlagEval,OpenCompass等
C:开源模型库
HuggingFace: https://huggingface.co/
HuggingFace 是一个开源社区,提供了统一的 AI 研发框架、工具集、可在线加载的数据集仓库和预训练模型仓库
10、并行计算的四大策略
训练大规模神经网络需要协调GPU集群来执行单个同步计算。随着集群数和模型规模的增长,机器学习从业者开发了多项技术,在多个GPU上进行并行模型训练。
训练神经网络是一个迭代的过程。在一次迭代过程中,训练数据通过模型的layer(层)进行前向传递,对一批数据中的训练样本进行计算得到输出。然后再通过layer进行反向传递,其中,通过计算参数的梯度,可以得到各个参数对最终输出的影响程度。批量平均梯度、参数和每个参数的优化状态会传递给优化算法,如Adam,优化算法会计算下一次迭代的参数 ( 性能更佳)并更新每个参数的优化状态。随着对数据进行多次迭代训练,训练模型会不断优化,得到更加精确的输出。

不同的并行技术将训练过程划分为不同的维度,包括:
数据并行(Data Parallelism):在不同的GPU上运行同一批数据的不同子集;
流水并行(Pipeline Parallelism):在不同的GPU上运行模型的不同层;
模型并行(Tensor Parallelism):将单个数学运算(如矩阵乘法)拆分到不同的GPU上运行;
专家混合(Mixture-of-Experts):只用模型每一层中的一小部分来处理数据。
- 数据并行
数据并行是指将相同的参数复制到多个GPU上,通常称为“工作节点(workers)”,并为每个GPU分配不同的数据子集同时进行处理。数据并行需要把模型参数加载到单GPU显存里,而让多个GPU计算的代价就是需要存储参数的多个副本。
- 流水并行
流水并行是指按顺序将模型切分为不同的部分至不同的GPU上运行。每个GPU上只有部分参数,因此每个部分的模型消耗GPU的显存成比例减少。
- 模型并行
在流水并行中,模型沿layer被“垂直”拆分,如果在一个layer内“水平”拆分单个操作,这就是模型并行。许多现代模型(如 Transformer)的计算瓶颈是将激活值与权重相乘。
- 混合专家(MoE)
混合专家(MoE)模型是指,对于任意输入只用一小部分网络用于计算其输出。在拥有多组权重的情况下,网络可以在推理时通过门控机制选择要使用的一组权重,这可以在不增加计算成本的情况下获得更多参数。
- 其他节省内存的设计
除了以上的并行策略,还有很多其他的计算策略可以用于训练大规模神经网络:
要计算梯度,需要保存原始激活值,而这会消耗大量设备显存。Checkpointing(也称为激活重计算)存储激活的任何子集,并在反向传播时及时重新计算中间的激活。这可以节省大量内存,而计算成本最多就是增加一个完整的前向传递。还可以通过选择性激活重计算(https://arxiv.org/abs/2205.05198)在计算和内存成本之间不断权衡,也就是对那些存储成本相对较高但计算成本较低的激活子集进行检查。
混合精度训练(https://arxiv.org/abs/1710.03740)是使用较低精度的数值(通常为FP16)来训练模型。现代加速器可以用低精度的数值完成更高的FLOP计数,同时还可以节省设备显存。处理得当的话,几乎不会损失生成模型的精度。
Offloading是将未使用的数据临时卸载到CPU或其他设备上,在需要时再将其读回。朴素实现会大幅降低训练速度,而复杂的实现会预取数据,这样设备不需要再等待数据。其中一个实现是ZeRO(https://arxiv.org/abs/1910.02054),它将参数、梯度和优化器状态分割到所有可用硬件上,并根据需要将它们实现。
内存效率优化器可减少优化器维护的运行状态的内存,例如Adafactor。压缩可用于存储网络的中间结果。例如,Gist可以压缩为反向传递而保存的激活;DALL·E可以在同步梯度之前压缩梯度。
11、生成式模型和判别式模型
在机器学习中,对于有监督学习可以将其分为两类模型:判别式模型和生成式模型。
生成式模型,是指通过学习数据的分布来建立模型P(y|x),然后利用该模型来生成新的数据。
判别式模型,是指通过学习输入和输出之间的映射关系来建立模型y=f(x),然后利用该模型来预测新的输出。
简单地说,判别式模型是针对条件分布建模,而生成式模型则是针对联合分布进行建模。
(1)基本概念:
假设我们有训练数据(X,Y), X是属性集合,Y是类别标记。这时来了一个新样本x,想要预测他的类别y。因此,我们最终的目的是求得最大的条件概率P(y|x)作为新样本的分类。
(2)判别式模型这么做:
根据训练数据得到分类函数和分界面,比如根据SVM模型得到一个分界面,然后直接计算条件概率P(y|x),将最大P(y|x)作为新样本的分类。判别式模型使堆条件概率建模,学习不同类别之间的最优边界,无法反映训练数据本身的特性,能力有限,其只能告诉我们分类的类别。
(3)生成式模型这么做
一般会对每一个类建立一个模型,有多少个类别,就建立多少个模型。比如说类别标签有{猫,狗,猪},那首先根据猫的特征学习出一个猫的模型,再根据狗的特征学习出狗的模型,之后分别计算出新样本x跟三个类别的联合概率P(x,y),然后根据贝叶斯公式:

分别计算p(y|x),选择三类中最大的P(y|x)作为样本的分类。
(4)两个模型小结
在深度学习框架下,生成式模型主要用于数据生成和半监督学习,而判别式模型主要应用于分类和回归等直接预测输出的任务上。不管是生成式模型还是判别式模型,他们最终的判断依据都是条件概率P(y|x),但是生成式模型先计算了联合概率P(x,y),再由贝叶斯公式得到条件概率。因此,生成式模型可以体现更多数据本身的分布信息,其普适性更广。
生成式模型举例:
-
变分自编码器(Variational Autoencoder, VAE):学习数据潜在空间的分布,并能够生成类似训练集的新样本。
-
生成对抗网络(Generative Adversarial Networks, GANs):包括DCGAN、WGAN等变种,通过两个网络(生成器和判别器)的对抗训练来逼近真实数据分布,生成新样本。
-
隐马尔可夫模型(Hidden Markov Models, HMM):虽然不是深度学习中的典型模型,但在序列生成任务中有应用,尤其是在语音识别和自然语言处理领域。
-
玻尔兹曼机(Boltzmann Machines):包括受限玻尔兹曼机(Restricted Boltzmann Machines, RBMs)及其堆叠版本,用于学习概率分布并生成数据。
-
深度信念网络(Deep Belief Networks, DBNs):结合了多个受限玻尔兹曼机层,可以用于无监督预训练,也可用于生成任务。
判别式模型举例:
-
卷积神经网络(Convolutional Neural Networks, CNNs):在图像识别、物体检测等领域广泛应用,直接学习输入到输出之间的映射关系,而不是数据的生成过程。
-
循环神经网络(Recurrent Neural Networks, RNNs) 及其变体如长短时记忆网络(Long Short-Term Memory, LSTM)和门控循环单元(Gated Recurrent Units, GRUs):主要在序列数据分类和预测中起作用,不生成数据,而是判别输入序列的属性或标签。
-
多层感知器(Multilayer Perceptrons, MLPs) 和 深度神经网络(Deep Neural Networks, DNNs):在许多分类和回归任务中作为判别模型使用,直接预测给定输入下的输出类别或值。
-
支持向量机(Support Vector Machines, SVMs):尽管不是深度学习模型,但在传统机器学习中,SVM是一种典型的判别模型,通过构建最大间隔超平面来进行分类。
-
条件随机场(Conditional Random Fields, CRFs):在标注任务中,CRFs被用来建立给定输入序列条件下输出序列的概率分布,属于判别模型的一种。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】


为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。


大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

适用人群

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

870

被折叠的 条评论
为什么被折叠?



