“ 大模型技术开发是一个复杂的领域,我们需要对其形成基础的认知体系,才能知道我们在做什么以及怎么做。”**
随着对大模型技术应用的理解加深,以及和身边朋友和同事的交流,最近发现一个问题,很多人对大模型技术和应用并没有一个整体的认识;而且由于大模型属于一个新兴领域,也因此产生了很多新的概念和名词,所以这也间接导致了很多人认为大模型很难很复杂。
所以,今天作者就从个人理解的角度对整个大模型体系进行梳理;虽然并不一定完全正确,也可能并不完善,但对在学习大模型的朋友来说也算是一个参考。
大模型应用和体系梳理
要想了解和学习大模型的技术和应用,我们首先需要明确两个概念,大模型技术和大模型应用技术。
大模型技术
大模型的基本概念是一个基于深度学习神经网络实现的一个数学模型,其本质是通过数学的方式来模拟人类大脑的学习和思考方式,所以被称为人工智能。
所以,大模型技术的核心是数学,而编程只是通过计算机技术来实现这个数学模型;因此大模型技术的核心是以数学为基础,以强化大模型的“智能性”为目标;所以与大模型相关的技术都是怎么提升大模型的“智慧”;不论是机器学习,还是深度学习,神经网络(架构),还是反馈学习,强化学习,MoE(混合专家模型),训练,微调;亦或者其它我们听过或没听过的高大上的技术。
而且由于大模型本身能力的问题,因此在不同的应用场景下需要开发适合不同场景的模型;比如说根据任务分类有生成式模型,推理式模型,判别式模型,分类模型,数据分析模型等等为了解决一系列任务而产生的模型。
而作者把这方面的技术,统称为大模型的能力开发,简单来说就是怎么把模型做得更好,更强。
大模型技术经过这两年的快速发展,其功能越来越强大,应用场景也越来越多,虽然过程中依然存在很多问题,但这是新技术发展过程中必须要面对的问题。而且很多问题在纯粹的技术理论和研究中是无法发现的,而在具体的应用场景中就会出现各种各样的问题。
这就是应用倒逼技术的发展,因此技术和应用是相辅相成的,技术离了应用没有用武之地,应用离了技术也成了空中楼阁。
大模型应用技术
那什么是大模型应用技术呢?
大模型技术解决的是怎么把大模型做的更好的问题,而大模型应用技术解决的是怎么把大模型用好的问题。
而关于大模型应用技术有哪些?
其实大模型应用技术说起来好像有很多,但事实上无法就以下几种:
大模型特性应用
大模型生成-AIGC
大模型增强-RAG
大模型扩展-Agent
大模型特性应用
大模型特性应用相对比较简单,比如说分类模型;包括计算机视觉的图像分类和基于语言的情感分类等,比如说好评和差评等。
大模型生成
大模型生成其实也比较简单,就是根据用户的要求和案例,来生成符合用户目标的内容,比如说文字生成,图像生成,视频生成等等。
而从技术上来说,大模型内容生成核心主要由两个,一个是大模型本身的能力,这个就是上面大模型技术需要解决的问题;第二个就是提示词,用来激发大模型的潜力,让大模型生成更好更符合用户目标的高质量内容。
比如说小参数模型一般情况下没有大参数模型的生成效果好。
大模型增强
RAG检索增强是为了解决大模型的天生缺陷,因为大模型的知识和能力并不是实时更新的,每次都需要进行重新训练或微调;而且大模型还存在一定的幻觉,因此需要通过外部知识增强的方式,让大模型能够处理实时性数据和减少幻觉问题。
大模型扩展-Agent
之所以叫大模型扩展的原因就是因为大模型虽然有推理和思考以及生成的能力,但大模型有一个很大的缺陷就是无法使用外部工具;但在具体的应用场景中,很多事情是需要借助外部工具来实现的,比如说你饿了点外卖需要借助外卖平台。
大模型同样如此,虽然现在随着大模型能力的增强,它具备了基本的思考和规划能力;但它依然无法使用外部工具,所以通过Agent也就是智能体技术来给大模型安装手和脚,让它能够使用外部工具来更好更高效的解决问题。
比如说让大模型帮你制定一个旅行路线,那么它就可以通过自主规划,去设计路线,然后通过第三方平台订票,订房,订车等等。
开发工具
前面说了大模型技术和大模型应用技术的基本理论,而这些技术又有哪些具体的开发框架和工具呢?
大模型技术开发目前市面上有很多开发框架,因为大模型行业标准还没有完全定性,各家模型公司都想抢着占领制高点制定行业规则;但目前来看还处于百家争鸣的时代。
而目前从技术开发上来说,大模型技术开发主要有Meta开发的pytorch开发框架和谷歌的Tensorflow框架;当然还包括其它一些开发框架,感兴趣的可以自己去了解。
而从技术理论上来说,有影响最大的Transformer架构和比较经典的RNN,CNN,Gan生成对抗网络等;包括国内Deepseek提出的MoE专家模型等。
当然,现在更加主流的开发方式是把多种模型架构相结合,在不同的地方使用不同的架构。
而大家在学习的时候应该选择其中一种框架和架构进行学习,当你学会其中一种架构之后,其它的就能一法通万法通了。
大模型应用技术的开发工具
关于大模型应用技术的开发就更加复杂了,不同的协议和技术不断被提出;比如说openAI公司提出的Function call,现在比较火的MCP协议,以及谷歌提出的A2A协议等Agent开发协议。
而关于RAG检索增强也经过多个版本的迭代:
- 基础阶段(Naive RAG)
- 高级阶段(Advanced RAG)
- 模块化阶段(Modular RAG)
- 智能体RAG (Agentic RAG)
过多个版本的迭代:
- 基础阶段(Naive RAG)
- 高级阶段(Advanced RAG)
- 模块化阶段(Modular RAG)
- 智能体RAG (Agentic RAG)
总之,大模型技术和大模型应用技术的发展还处于一个快速迭代和验证的过程;而想从事大模型领域的人,应该尽快选择其中的一个细分领域作为切入点;然后根据自己能力和兴趣选择合适的方向。
大模型岗位需求
大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
掌握大模型技术你还能拥有更多可能性:
• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;
• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;
• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
• 更优质的项目可以为未来创新创业提供基石。
可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
零基础入门AI大模型
今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
有需要的小伙伴,可以点击下方链接免费领取【保证100%免费
】
1.学习路线图
如果大家想领取完整的学习路线及大模型学习资料包,可以扫下方二维码获取
👉2.大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。(篇幅有限,仅展示部分)
大模型教程
👉3.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(篇幅有限,仅展示部分,公众号内领取)
电子书
👉4.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(篇幅有限,仅展示部分,公众号内领取)
大模型面试
**因篇幅有限,仅展示部分资料,**有需要的小伙伴,可以点击下方链接免费领取【保证100%免费
】
**或扫描下方二维码领取 **