自从今年年初DeepSeek火了之后,每个公司估计都或多或少的准备了解和积累大模型知识了。我们公司也不例外,领导安排大家每天都要花一小时来学习大模型,每周大家聚在一起总结一次经验。
一开始,我对大模型的认知,是停留在ChatGPT的使用上,只知道大模型可以对话聊天,像一个真人,感觉很神奇,但是不知道是怎么实现的。也听说过一些名词,比如神经网络、向量、卷积、权重之类的,也不敢和别人深聊,因为都不知道是什么意思,感觉是很深的数学知识和科学知识。到现在,两个月时间,我基本上已经掌握了大模型原理和微调方法,并成功的在企业落地了一个应用(通过语音安排任务,难点:名字模糊匹配(音同词不同))。
我对大模型的学习之路,分以下几个步骤:
1.了解现在有多少种大模型
通过搜索发现,有ChatGPT,DeepSeek,文心一言,通义千问,豆包,KIMI,讯飞等。然后我分别试用了一下,对于我这种不用也不想用科学上网的人来说,ChatGPT等国外的也就跳过了(包括我后面对大模型的使用和微调,也是都选用国内的工具来完成),那些没有免费试用额度的也跳过了。
2.了解哪些有API接口
因为最终是要在企业应用落地的,所以需要有对接接口才行。其实调用接口,接入自己的系统,这个是很简单的事情,通过看接口文档,正确传参数就可以了。但是这种只能用来对话,做个聊天工具还可以。而企业应用一般需要基于内部知识库,这个应该怎么和企业内部知识对接呢,于是我又了解到,大模型除了对话之外,还有RAG,Agent,Function Calling这种概念。
3.寻找一站式综合平台
同事推荐了dify,我上去看了一下,没怎么看懂。我自己找了阿里百炼,在上面注册个账号,拖拖拽拽出一个Agent,能够直观的看到输入输出,在自己开发的demo里面调用也很方便。后面又找类似的,发现还有扣子。至于百度的那些,我就不找了,我对这家公司有点偏见。
领导也经常发一些DeepSeek的使用说明和应用案例。迷失在各种Agent一段时间后,经过各种测试和踩坑,我发现这些Agent能力不行,不能满足我的要求。调用Function Calling时,也是时好时坏。这时我发现,大模型的能力原来不咋地,智商就像个三岁孩子。
4.开始接触原理
对于一个新事物,我习惯从根上开始了解。于是我开始搜索大模型是怎么实现的。先从向量和卷积开始,于是看了一些数学老师介绍向量和卷积的视频(后来发现大模型用的不是这些)。然后开始了解Transformer架构,下图是谷歌那篇著名的论文《Attention Is All You Need》中的架构。
当第一次看到这张图的时候,啥也不知道,只觉得是高大上的东西。后面了解原理后,基本也能讲清楚图中的意思了。
我是从几个方面开始入手学习的
(1)刷抖音精选,看Transformer架构的入门介绍和原理,先看短视频,逐渐看长视频。
(2)知乎上看文章
(3)看书,系统学习
通过刷文章,发现了一本书,老外写的《Build a Large Language Model (From Scratch)》,如获至宝,从第一页开始看起,顺便又学了一下Python。
5.开始微调
当原理看的津津有味,全情投入的时候,公司的业务不能等我研究透了才开始做。于是开始学习怎么微调,这个我也是直接网上找视频教程看。现在的视频,卖课的越来越少,都是直接上干货。我看了一些,没怎么看明白,直到发现了一个最好的视频。我听任何视频,都是1.5倍速,而且听最多2个小时就够了,唯独这个视频,是一个声音很甜美的小姐姐讲的(因为有很多人转发,也不知道谁是原作者。我是喜欢直接关注原作者。如果没错的话,是B站的堂吉诃德拉曼查的英豪),一个多小时的时长,我是一点也没有快进,而且反复听了好几遍。然后按照步骤,自己微调成功了一个大模型,从此打开了微调的思路。现在再看各种微调方法和工具,也都可以很快的看懂和上手了。
6.后期计划
(1)各种微调工具(LLaMa-Factory,MS-SWIFT,unsloth),包括超参数要熟练掌握。
(2)继续在B站听课,持续关注最新的大模型技术和行业动态。
(3)老外写的原理的这本书也要继续看完,前面是往上生长,看原理是往下生长,都重要。
(4)尝试在不同领域设计解决方案,看看能不能有所突破。
后续我也会持续发文详细报告进度,学习路漫漫,与君共勉。
在大模型时代,我们如何有效的去学习大模型?
现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
掌握大模型技术你还能拥有更多可能性:
• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;
• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;
• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
• 更优质的项目可以为未来创新创业提供基石。
可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
一、AGI大模型系统学习路线
很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF书籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型各大场景实战案例
结语
【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈