自从今年年初DeepSeek火了之后,每个公司估计都或多或少的准备了解和积累大模型知识了。我们公司也不例外,领导安排大家每天都要花一小时来学习大模型,每周大家聚在一起总结一次经验。
一开始,我对大模型的认知,是停留在ChatGPT的使用上,只知道大模型可以对话聊天,像一个真人,感觉很神奇,但是不知道是怎么实现的。也听说过一些名词,比如神经网络、向量、卷积、权重之类的,也不敢和别人深聊,因为都不知道是什么意思,感觉是很深的数学知识和科学知识。到现在,两个月时间,我基本上已经掌握了大模型原理和微调方法,并成功的在企业落地了一个应用(通过语音安排任务,难点:名字模糊匹配(音同词不同))。
我对大模型的学习之路,分以下几个步骤:
1.了解现在有多少种大模型
通过搜索发现,有ChatGPT,DeepSeek,文心一言,通义千问,豆包,KIMI,讯飞等。然后我分别试用了一下,对于我这种不用也不想用科学上网的人来说,ChatGPT等国外的也就跳过了(包括我后面对大模型的使用和微调,也是都选用国内的工具来完成),那些没有免费试用额度的也跳过了。
2.了解哪些有API接口
因为最终是要在企业应用落地的,所以需要有对接接口才行。其实调用接口,接入自己的系统,这个是很简单的事情,通过看接口文档,正确传参数就可以了。但是这种只能用来对话,做个聊天工具还可以。而企业应用一般需要基于内部知识库,这个应该怎么和企业内部知识对接呢,于是我又了解到,大模型除了对话之外,还有RAG,Agent,Function Calling这种概念。
3.寻找一站式综合平台
同事推荐了dify,我上去看了一下,没怎么看懂。我自己找了阿里百炼,在上面注册个账号,拖拖拽拽出一个Agent,能够直观的看到输入输出,在自己开发的demo里面调用也很方便。后面又找类似的,发现还有扣子。至于百度的那些,我就不找了,我对这家公司有点偏见。
领导也经常发一些DeepSeek的使用说明和应用案例。迷失在各种Agent一段时间后,经过各种测试和踩坑,我发现这些Agent能力不行,不能满足我的要求。调用Function Calling时,也是时好时坏。这时我发现,大模型的能力原来不咋地,智商就像个三岁孩子。
4.开始接触原理
对于一个新事物,我习惯从根上开始了解。于是我开始搜索大模型是怎么实现的。先从向量和卷积开始,于是看了一些数学老师介绍向量和卷积的视频(后来发现大模型用的不是这些)。然后开始了解Transformer架构,下图是谷歌那篇著名的论文《Attention Is All You Need》中的架构。
当第一次看到这张图的时候,啥也不知道,只觉得是高大上的东西。后面了解原理后,基本也能讲清楚图中的意思了。
我是从几个方面开始入手学习的
(1)刷抖音精选,看Transformer架构的入门介绍和原理,先看短视频,逐渐看长视频。
(2)知乎上看文章
(3)看书,系统学习
通过刷文章,发现了一本书,老外写的《Build a Large Language Model (From Scratch)》,如获至宝,从第一页开始看起,顺便又学了一下Python。
5.开始微调
当原理看的津津有味,全情投入的时候,公司的业务不能等我研究透了才开始做。于是开始学习怎么微调,这个我也是直接网上找视频教程看。现在的视频,卖课的越来越少,都是直接上干货。我看了一些,没怎么看明白,直到发现了一个最好的视频。我听任何视频,都是1.5倍速,而且听最多2个小时就够了,唯独这个视频,是一个声音很甜美的小姐姐讲的(因为有很多人转发,也不知道谁是原作者。我是喜欢直接关注原作者。如果没错的话,是B站的堂吉诃德拉曼查的英豪),一个多小时的时长,我是一点也没有快进,而且反复听了好几遍。然后按照步骤,自己微调成功了一个大模型,从此打开了微调的思路。现在再看各种微调方法和工具,也都可以很快的看懂和上手了。
6.后期计划
(1)各种微调工具(LLaMa-Factory,MS-SWIFT,unsloth),包括超参数要熟练掌握。
(2)继续在B站听课,持续关注最新的大模型技术和行业动态。
(3)老外写的原理的这本书也要继续看完,前面是往上生长,看原理是往下生长,都重要。
(4)尝试在不同领域设计解决方案,看看能不能有所突破。
后续我也会持续发文详细报告进度,学习路漫漫,与君共勉。
如何学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
学习路线
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓