【大模型入门学习】2025最新大模型技术学习过程梳理

AI入门学堂

于 2025-05-08 11:02:40 发布

阅读量535

点赞数 10

文章标签：人工智能大模型应用大模型微调语言模型程序员 AI 大模型

本文链接：https://blog.csdn.net/AUG2468/article/details/147783375

版权

前言

“ 学习是一个从围观到宏观，从宏观到微观的一个过程 ”

学习大模型技术也有几个月的时间了，之前的学习一直是东一榔头，西一棒槌，这学一点那学一点，虽然弄的乱七八糟，但对大模型技术也算有了一个初步的认识。

因此，今天就来整体梳理一下大模型技术的框架，争取从大模型所涉及的理论，技术，应用等多个方面对大模型进行梳理。

—

大模型技术梳理

这次梳理大模型不仅仅是大模型本身的技术，而是一个以大模型为核心的涉及到多个方面的理论，技术和应用实践，也可以说是对自己学习大模型技术的总结吧。

话不多表，下面开始进入正题。

首先，大家应该明白一件事，大模型技术是人工智能技术的一个分支，是目前主流的一个研究方向，但并不是唯一的方向。

人工智能技术是一个通过某种技术手段人为的创建一个具有类人智能的系统(软件或硬件)，而大模型技术是一种仿造人类学习进化的一种方式，使用深度学习(机器学习)算法模仿人类大脑神经元，来实现智能的一种方式，其主要载体是神经网络。

神经网络之所以得到发展的原因是因为，基于神经网络架构进行预训练之后，神经网络会产生一种无法解释的涌现能力，而这个涌现能力特别像是具有了智能一样。

神经网络模型架构

既然是模仿神经网络，那么就需要一种深度学习模型来模仿人类大脑神经系统，比如CNN(卷积神经网络)，RNN(循环神经网络)，以及目前主流的Transformer模型，还有LSTM，ResNet，GANs等。

神经网络的主要结构为一个输入层，一个输出层，以及隐藏层(一个或多个层组成)，不同网络层之间使用全连接的方式进行连接，每一个圆都代表着一个神经元，如下图所示：

在这里插入图片描述
AI大模型学习路线
如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

在神经网络中，除了输入/输出层之外，每一个神经元都有其参数，神经网络的效果就是由这些参数值决定的。

神经网络模型通过一种叫正向传播，损失计算和反向传播的方式来调整神经网络模型中每个神经元的参数。

通过把大量的训练数据输入到神经网络中，让神经网络进行“学习”(不断的调整参数)，来达到类智能的能力。

不同神经网络的架构和实现有所不同，但其核心点都是基于此模型实现的，对想学习神经网络的朋友来说，先学会基础的神经网络架构，然后再针对不同的神经网络模型进行深化是最好的选择。

目前的大模型主要采用的是预训练的方式来实现智能的，简单来说就是给神经网络模型一堆资料，让它自己学，自己看，自己总结；其中给答案的叫做监督学习，没答案的叫无监督学习。

然后根据不同的任务需求，又设计出用来解决不同类型任务的神经网络，比如分类任务，图片处理任务，自然语言处理任务等。

至于大模型技术细节方面的东西，就不详细描述了，感兴趣的可以自己学习，比如编码器，损失计算和反向传播怎么实现等。

再有，设计并训练一个完整可用的神经网络模型是一个复杂的工程，比如模型的设计，训练数据的收集与处理，损失函数与反向传播算法的设计，模型过拟合，欠拟合等问题。

在这里插入图片描述

而且随着模型规模的增大，模型的训练难度成几何式增长，比如分布式训练，并行计算等问题；以及为了提升大模型的学习效率，节约成本而设计的强化学习，迁移学习等。

最后，为了使得大模型更像人，也为了实现真正的AGI(通用人工智能)，现在多模态大模型大行其道，而多模态大模型技术比传统大模型的技术复杂度又上升了不止一个台阶。

基于知识库的向量检索——RAG

大模型技术虽然很强大，但其有几个明显的缺点，第一就是知识是有限制的，因为采用的是预训练方式，因此大模型的知识最多只能到训练开始的时间节点，之后产生的新的知识大模型无法获取。

其次，由于训练大模型的成本问题，导致很多企业无法承担大模型的训练成本，因此只能使用第三方的大模型，但第三方大模型没有在特定领域的数据上进行训练或微调，因此，其表现能力一般。

这时RAG就出现了，RAG中文是检索增强，是通过外挂知识库的方式，提问大模型之前先从向量数据库中查询数据，然后一起输入到大模型，这样大模型就相当于有了一个外部资料库，遇到不懂的问题就可以通过查资料的方式解决。

以目前的技术来说，RAG是大模型技术的一个重要节点，即是大模型能力范围的扩展，也是对大模型短板的补充。

在这里插入图片描述

微调与提示词工程

我们一般使用的大模型都是预训练模型，也就是用某些数据集训练过的模型；但这些模型一般情况下只会在特定领域表现出色，但如果用来解决自己的实际问题可能就不太好用了。

这时怎么让预训练模型在其它任务中表现更好就是一个值得思考的问题，而这就是微调与提示词工程存在的意义。

微调

微调从技术手段上来说和模型训练没有区别，只不过微调是在相似任务的预训练模型的基础之上，通过少量的数据对模型参数进行调整，使得其能够更加适应当前任务的一种方式。由于其成本低，对资金和技术要求要比完全重新设计和训练一款模型要低的多。

因此，微调存在的意义是为了节约成本和降低门槛，如果资金充足的情况下，根据任务需求设计并训练一款模型是最好的选择，微调是退而求其次的一种方式。

在这里插入图片描述

提示词工程

如果说微调是为了让大模型去适应特定的任务，那么提示词的作用就是怎么更好的使用一个大模型。

根据研究发现，对待同样的问题使用不同的提示词有时会得到完全不一样的效果，因此根据这一现象就提出了提示学习的方法，具体的可以看之前的问题——[提示学习]

用人类来举例就是，假如有人问你吃饭了吗这种简单的问题，你可以下意识的回答，而且可以回答的很好；大模型也是如此，如果你问大模型很简单的问题，它也能回答的比较好。

但如果问到一些复杂的问题就需要更加准确的描述，比如说根据当前的就业环境，从经济，市场，贸易，国际局势等多个方面来分析一下产生当前情况的原因，以及后续的应对方法。

这种复杂的问题，不论是问人还是问大模型，你说的越准确，它回答的才能更好，这就是提示词存在的意义。

智能体Agent

在前面的描述中，神经网络架构讲的是怎么构建一个大模型，知识库是怎么补充和强化大模型，微调和提示词是怎么更好的使用大模型，那么智能体就是真正的使用大模型，研究大模型的具体应用。

如果把大模型比做人类的大脑，那么智能体就是大模型的手和脚。

在此之前使用大模型，我们能够让它回答问题，写文章，生成图片和视频，但这都是大模型天生具备的能力，就类似于人类可以写写画画一样。

但如果让大模型完成更加复杂的任务，这时就需要借助外部工具，比如外出旅行需要设计旅行路线，定酒店和车票等。

这种任务就完全超出大模型或者人类本身的能力圈，如果想完成这些任务就需要借助外部工具，比如说手机APP。

智能体就是大模型+外部工具实现的一种能够独自分析和解决复杂任务的一种载体，利用大模型的独立规划能力，让它根据自己的判断去调用外部工具完成任务。

在这里插入图片描述

使用的技术主要有function call，langchain等；如上图所示，大模型使用function call的方式调用外部工具，使用自身能力完成规划和行动，并且由于大模型没有足够的记忆能力，需要增加记忆模块来记录对复杂任务的分析过程。

目前，大模型解决复杂任务，主要通过思维链(CoT)的方式来实现对复杂问题的分解。

langchain是一种人工智能开发框架，它封装了大部分调用大模型的细节，以及其它辅助功能，比如文档的加载，多个大模型的链式调用，提示词模板的封装等，与其类似的还有LlamaIndex等。

看到这里，你已经清晰认知到：
✅ AI大模型正在重构全球科技产业格局
✅ 掌握核心技术者将享受的行业高薪资基准
✅ 碎片化学习正在吞噬90%开发者的竞争力

但问题来了——如何将这份认知转化为实实在在的职场资本？

🔥 你需要的不是更多资料，而是经过验证的「加速器」

这份由十年大厂专家淬炼的**【AI大模型全栈突围工具包】**，正是破解以下困局的密钥

🌟什么是AI大模型

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。

这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理*、图像识别、*语音识别等。

🛠️ 为什么要学AI大模型

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

🌰大模型岗位需求

大模型时代，企业对人才的需求变了，AI相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。

💡掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

🚀如何学习AI 大模型

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的课程资料免费分享，需要的同学扫码领取！

在这里插入图片描述

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我帮你准备了详细的学习成长路线图&学习规划。大家跟着这个大的方向学习准没问题。如果你真心想要学AI大型模型，请认真看完这一篇干货！

👉2.AI大模型教学视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩**（文末免费领取）**

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（文末免费领取）

👉4.LLM大模型开源教程👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（文末免费领取）

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。 （文末免费领取）

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（文末免费领取）

🏅学会后的收获：

基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；
能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；
基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；
能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

这份完整版的大模型 AI 学习资料已经整理好，朋友们如果需要可以微信扫描下方我的二维码免费领取

在这里插入图片描述