本文是全球名校AI开放课程推荐系列第一篇。推荐的课程主要来自斯坦福AI硕士项目和CMU的MCDS硕士项目,其他课程也都是来自顶级计算机名校的经典课程。所有课程都有公开的课程大纲、作业和大部份有课堂视频方便自学。文中提供了课程资源的相关链接,感兴趣的同学可以关注公众号,第一时间获取后续强化学习和视觉/生成模型方面的课程信息。
LLM第一课:斯坦福CS224n: NLP with DL
推荐指数:+++++/+ 额外1颗星加给作业
课程难度:中等(undergraduate level)
先修要求:
零基础的同学建议先学斯坦福的cs231n,cs221或者cmu的11-785中任意一门。匹配度最高的是cs231n。231n目前公开了视频的是2019年的版本,也可以用李飞飞的博士生Justin Johnson在密歇根大学2020年上课的版本,直接用没有任何问题。
课程体验:
本课程是斯坦福最受欢迎的NLP课程,也是NLP公开课中受关注度最高的课程。适合作为学习NLP的第一门课。注意是NLP的第一门课,不是DL的第一门课,零基础的同学请先看后文的先修要求。
课程最经典的内容集中在前10课。据说manning教授授课时,对前10课的课堂学习有要求,后面的课程会尽量留时间给大家完成小组作业。就我的学习感受而言,也是前10课系统性好。先从word embedding入手讲了table based statistic方法到word2vec和glove的思路演变。然后介绍神经网络的模型结构,从最初的LSTM讲到Attention再到Transformer和GPT的演进思路非常清晰。之后介绍最新的指令微调和强化学习对齐等post-training方法。认真学完前10课已经能够完成所有的课程Assignments,完成作业后也应该可以独立写出能够在单卡上训练的GPT-3 pre-training模型。
最近几年前10课的内容基本没有变化,但是后半部分的课程每年都会有很多调整。主要原因也是Transformer的基础结构逐渐稳定,但post-training领域仍然处理发展初期,为了不断跟进最新的研究成果,后半部分的课程每年的变动就相对大,并且主题也要零散一些。通常有好几节课是请产业界研究员针对某个主题做讲座,大部分也都很精彩。时间紧张的同学建议学完前半部分课程后将后半部分作为讲座课学习。
课程资源:
- 课程网站连接:
cs224n课程:
https://web.stanford.edu/class/cs224n/
cs224n最新视频(winter2023):
https://www.youtube.com/playlist?list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
cs231n:
https://cs231n.stanford.edu/
密歇根大学2020年的cs231n同内容版本:https://web.eecs.umich.edu/~justincj/teaching/eecs498/WI2022/
作业:
阿克的作业链接:
https://github.com/roarkai/CS224n-Assignments-win24
LLM第二课:CMU 11-711: Advanced NLP
推荐指数:++++/++ 额外2颗星加给作业
课程难度:中等(undergraduate level)
老师:Graham neubig(CMU教授,openhands联合创始人)
课程体验:
neubig教授的11-711和747都是cmu历年来评价很高的nlp课程。大模型火了之后,教授在2023年更新了711几乎所有内容,也不再单独开设747。相对cs224n而言,11-711的课程内容更多,覆盖面也更广。
相比这门课程前几年的精细度而言,新版为了尽可能覆盖更多的主题也带来一个问题(当然也跟这个领域本身的高速发展有关系),就是好一些主题都没有办法在一节课里讲透。教授也因此给每门课都提供了大量的参考文献。如果有对课程中感兴趣的内容,但是又不太理解的部分,就需要自己看论文。
虽然lecture部分的体验可能不如cs224n的好。但这门课相比cs224n的一个重要优点是课程作业设计得更好,非常结合实践。第一个作业是手写llama,第二个作业是写一个端到端的llm,第三个作业是论文复现。看题目也知道有多扎实了,所以我自己的感受是,这门课最大的收获是来自作业的部分。
课程资源:
- 课程网站连接:https://princeton-cos597r.github.io/
- 视频:https://www.youtube.com/@neubig/playlists
建议关注neubig的视频页面。他每年都会更新最新的课程内容。24fall的视频上传了一半后很长时间都没有更新后一半。估计教授参与了创业项目openhands之后太忙了,几天一个repo…看到课程结束两个月后还没更新vedio,我就试着给他发了信息,没想到老师隔天就全部发出来了,感慨下这个老师真挺好的。
- 阿克的作业链接:待更新
LLM第三课:普林斯顿cos597r:Deep Dive into LLM
推荐指数:+++++
课程难度:中高(graduate level)
老师:陈丹琦(就不用过多介绍了吧)和Sanjeev Arora
先修要求:建议上完cs224n后再学习
课程体验:这是整个AI公开课系列中推荐的唯一一门论文讨论课。我本人很喜欢这门课有两个原因:
一是课程的内容编排非常好。整个课程的系统性强,将大语言模型的整个pipeline从dataset到pre-training再post-training都完整覆盖且详略得当。也没有像11-711那样为了广泛覆盖各种话题使得单个主题介绍有时失于简略。每个主题模块推荐的论文分为三类,如果能把required reading加上panel discussion的文章精度完,基本能对这部分主题的主流解决方案,当前研究重点和方向有很好的认知。
二是slides做得很好,要点和思路非常清晰,是少有的即使没有vedio直接看slides也能get要点的课程。这和授课老师陈丹琦的研究实践有很大关系。陈丹琦的团队在LLM领域的研究范围广成果也多,可以说是学术界llm研究的先锋,广为人知的比如Roberta。很多模块的内容都有自己结合实践的理解认知,要点的把握和研究思路的启发性很好。非常推荐陈丹琦最近的一个公开lecture:Training Language Models in Academia。可以作为本课程的一个导读。
课程资源:
- 课程网站连接:https://princeton-cos597r.github.io/
- 视频:课程视频没有公开,但推荐两位老师公开的两个讲座作为课程导读,这两个vedio在ytb上都有:
1. 陈丹琦:Training Language Models in Academia
2. Sanjeev Arora : A Theory for Emergence of Complex Skills in Language Models
- 作业:阅读课程schedule中要求的论文,建议精度required reading和panel discussion中推荐的论文,泛读recommend reading栏中涉及的论文。
其他LLM课程
斯坦福cs25 Transformers United和 MLSys Seminar
这两门课可以作为llm领域的讲座合集来听。课程形式都是邀请业界具有大模型实践经验同时又有优秀论文发表的研究员来介绍自己的研究。里面有很多非常精彩的分享。可以根据自己感兴趣的专题有选择地听。
Andrej Karpathy的LLM 101n
Andrej Karpathy(最初设计了斯坦福cs231n的人,openai联创,特斯拉自动驾驶系统高级总监)正在准备一门实践性很强的LLM课程,今年会推出,按照之前的学习经验,这门课大概率会成为最值得学习的LLM课程,没有之一。
课程计划连接:
https://github.com/karpathy/LLM101n
本文是全球名校AI开放课程推荐系列的第1篇,欢迎关注公众号获得后续强化学习和视觉/生成模型课程内容。本文参考了@PKUFlyingPig开源的cs自学指南的写作方式,如果除了机器学习相关内容之外,需要自学计算机专业相关课程,非常推荐大家参考cs自学指南https://csdiy.wiki/。
全球AI开放课程系列目录
第一类:自然语言处理和大语言模型
第二类:图像处理和生成模型
第三类:强化学习
第四类:机器学习和深度学习基础
AI大模型学习路线
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
扫描下方csdn官方合作二维码获取哦!
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓