要从0到1学习大模型的话,基本上自Transformer诞生之后的知识都需要掌握,比方说vanilla Transformer、BERT、BART、RoBERTa、GPT-2/3、T5等等这些最经典的模型,这些仅是基础部分;LLM火起来之后,LLM训练相关的一整套pipeline(pre-training、SFT、RLHF)、prompt engineering、CoT、RAG、MoE这些东西究竟在做什么,要比较清楚。
个人比较推荐的是两本关于大模型的书:《大模型应用解决方案》和《快速部署大模型》。这两本书关于上述知识都有完整的覆盖及详细的讲解,这两本书相辅相成,前者主要围绕一系列经典Transformer模型,以项目制的方式开展知识讲解;后者则补充了大语言模型(LLM)最新的前沿技术。
全书基本上以 “理论搭配代码实现” 的方式进行讲解,既不会像部分论文那样晦涩难懂,又不失工具书的实用性,对于某个特定模型背后的原理,以及怎么部署,讲解得还是非常详尽的。
《大模型应用解决方案》
《快速部署大模型》
另外这两本书有非常优质的配套代码资源。代码作为科研过程中的实践部分,直接关系到了idea能否实现出来,实验是否能work,可以说是深度学习的基本功。而往往新手的科研之路是否能够顺利,很大程度取决于第一份接触到的代码质量。说句实话,甚至很多顶会文章的开源代码,无论是github文档,还是代码的干净、完整程度,其易用性是有待考究的。如果新手在刚起步的阶段接触到的都是低质量的代码的话,且不说对于其科研习惯会造成怎样的影响,在心理上就会形成很大的“劝退”效应。
这两本书配套的代码资源对于模型部署的全生命流程都有很好的样例演示,从数据预处理、到模型定义、再到training loop、再到模型的testing和benchmarking,都有在公开数据集上的样例。有需要的朋友欢迎参考我往期关于这两本书的深度解读,里面提供了部分代码样例和书本内容。
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为
等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓