2025，我（普通人）学习大模型的方法和步骤-CSDN博客

本文链接：https://blog.csdn.net/qkh1234567/article/details/147730925

自从今年年初DeepSeek火了之后，每个公司估计都或多或少的准备了解和积累大模型知识了。我们公司也不例外，领导安排大家每天都要花一小时来学习大模型，每周大家聚在一起总结一次经验。

一开始，我对大模型的认知，是停留在ChatGPT的使用上，只知道大模型可以对话聊天，像一个真人，感觉很神奇，但是不知道是怎么实现的。也听说过一些名词，比如神经网络、向量、卷积、权重之类的，也不敢和别人深聊，因为都不知道是什么意思，感觉是很深的数学知识和科学知识。到现在，两个月时间，我基本上已经掌握了大模型原理和微调方法，并成功的在企业落地了一个应用（通过语音安排任务，难点：名字模糊匹配（音同词不同））。

我对大模型的学习之路，分以下几个步骤：

1.了解现在有多少种大模型

通过搜索发现，有ChatGPT，DeepSeek，文心一言，通义千问，豆包，KIMI，讯飞等。然后我分别试用了一下，对于我这种不用也不想用科学上网的人来说，ChatGPT等国外的也就跳过了（包括我后面对大模型的使用和微调，也是都选用国内的工具来完成），那些没有免费试用额度的也跳过了。

2.了解哪些有API接口

因为最终是要在企业应用落地的，所以需要有对接接口才行。其实调用接口，接入自己的系统，这个是很简单的事情，通过看接口文档，正确传参数就可以了。但是这种只能用来对话，做个聊天工具还可以。而企业应用一般需要基于内部知识库，这个应该怎么和企业内部知识对接呢，于是我又了解到，大模型除了对话之外，还有RAG，Agent，Function Calling这种概念。

3.寻找一站式综合平台

同事推荐了dify，我上去看了一下，没怎么看懂。我自己找了阿里百炼，在上面注册个账号，拖拖拽拽出一个Agent，能够直观的看到输入输出，在自己开发的demo里面调用也很方便。后面又找类似的，发现还有扣子。至于百度的那些，我就不找了，我对这家公司有点偏见。

领导也经常发一些DeepSeek的使用说明和应用案例。迷失在各种Agent一段时间后，经过各种测试和踩坑，我发现这些Agent能力不行，不能满足我的要求。调用Function Calling时，也是时好时坏。这时我发现，大模型的能力原来不咋地，智商就像个三岁孩子。

4.开始接触原理

对于一个新事物，我习惯从根上开始了解。于是我开始搜索大模型是怎么实现的。先从向量和卷积开始，于是看了一些数学老师介绍向量和卷积的视频（后来发现大模型用的不是这些）。然后开始了解Transformer架构，下图是谷歌那篇著名的论文《Attention Is All You Need》中的架构。

在这里插入图片描述

当第一次看到这张图的时候，啥也不知道，只觉得是高大上的东西。后面了解原理后，基本也能讲清楚图中的意思了。

我是从几个方面开始入手学习的

（1）刷抖音精选，看Transformer架构的入门介绍和原理，先看短视频，逐渐看长视频。

（2）知乎上看文章

（3）看书，系统学习

通过刷文章，发现了一本书，老外写的《Build a Large Language Model (From Scratch)》，如获至宝，从第一页开始看起，顺便又学了一下Python。

在这里插入图片描述

5.开始微调

当原理看的津津有味，全情投入的时候，公司的业务不能等我研究透了才开始做。于是开始学习怎么微调，这个我也是直接网上找视频教程看。现在的视频，卖课的越来越少，都是直接上干货。我看了一些，没怎么看明白，直到发现了一个最好的视频。我听任何视频，都是1.5倍速，而且听最多2个小时就够了，唯独这个视频，是一个声音很甜美的小姐姐讲的（因为有很多人转发，也不知道谁是原作者。我是喜欢直接关注原作者。如果没错的话，是B站的堂吉诃德拉曼查的英豪），一个多小时的时长，我是一点也没有快进，而且反复听了好几遍。然后按照步骤，自己微调成功了一个大模型，从此打开了微调的思路。现在再看各种微调方法和工具，也都可以很快的看懂和上手了。

6.后期计划

（1）各种微调工具（LLaMa-Factory，MS-SWIFT，unsloth），包括超参数要熟练掌握。

（2）继续在B站听课，持续关注最新的大模型技术和行业动态。

（3）老外写的原理的这本书也要继续看完，前面是往上生长，看原理是往下生长，都重要。

（4）尝试在不同领域设计解决方案，看看能不能有所突破。

后续我也会持续发文详细报告进度，学习路漫漫，与君共勉。

在大模型时代，我们如何有效的去学习大模型？

现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也_想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把都打包整理好，希望能够真正帮助到大家_。

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。