CMU-10423-Generative AI
文章平均质量分 94
AGIC课程笔记,2024S版
⊙月
勇前不弃
展开
-
CMU 10423 Generative AI:lec18(大模型的分布式训练)
这个文档主要讲解了(Distributed Training),特别是如何在多GPU上训练大规模的语言模型。原创 2024-10-03 16:16:46 · 340 阅读 · 0 评论 -
CMU 10423 Generative AI:lec17(优化Attention机制的方法)
本次课主要探讨了如何通过优化Attention机制来减少计算开销和内存使用,从而加速Transformer模型的推理过程。Flash Attention通过分块计算减少了内存使用,而Multi-Query Attention通过共享查询和键值对提升了推理效率。这些技术在大模型的推理中尤其重要,能够显著提升模型的实时性和计算效率。原创 2024-10-03 16:15:16 · 630 阅读 · 0 评论 -
CMU 10423 Generative AI:lec16(Mixture of Experts 混合专家模型)
这个文档是关于背景与动机上一节课讨论了大规模语言模型(如GPT-3和GPT-4)随着规模的增大,在训练和推理上的一些优劣点。大模型具有更强的容量和更快的收敛速度,但在推理时成本较高。本次课的目标是通过模型来减少推理成本,使模型在推理时只激活少量的权重,从而提高效率。Mixture of Experts 的定义MoE层包含多个专家(M个专家),通过一个称为"top-k routing"的机制进行专家选择。原创 2024-10-03 16:13:54 · 882 阅读 · 0 评论 -
CMU 10423 Generative AI:lec15(Scaling Laws 大规模语言模型的扩展法则)
这份讲义主要讲解了,即大规模语言模型的扩展规律,解释了如何根据模型大小和计算资源需求来优化训练过程。原创 2024-10-03 16:11:38 · 1462 阅读 · 0 评论 -
CMU 10423 Generative AI:lec14(Vision Language Model:CLIP、VQ-VAE)
这份讲义主要讲解了的核心概念及其应用,涉及人工智能系统如何处理图像和文本输入并生成输出。人工通用智能 (AGI) 应该能够处理多种形式的输入与输出,包括音频、视频、图像、文本等。VLM 是专注于图像和文本混合输入,输出主要是文本,但也有可能生成图像。标准文本转换器通过将输入的文本转化为一系列的 tokens,然后使用 Transformer 模型处理这些 tokens。VLM 的不同之处在于它不仅能处理文本,还可以处理图像。原创 2024-10-03 16:09:15 · 1059 阅读 · 0 评论 -
CMU 10423 Generative AI:lec13/13.5(text-to-image models:三大类方法、评估标准、图像编辑原理)
lec13主要讲述了文本到图像生成的各种模型,重点关注潜在扩散模型(Latent Diffusion Models, LDM)。文本到图像生成模型的历史发展:提供了文本到图像生成技术的发展时间线,并介绍了从GAN到自回归模型和扩散模型的演变。GAN模型:讨论了文本到图像生成的GAN模型,包括类别条件GAN的工作原理。自回归模型:介绍了Parti(Pathways Autoregressive Text-to-Image)模型的工作机制,将图像生成视为一个序列到序列的问题。扩散模型。原创 2024-10-02 17:56:45 · 1047 阅读 · 0 评论 -
CMU 10423 Generative AI:lec12(指令微调Instruction Fine-tuning、人类反馈强化学习RLHF)
这份文件是CMU机器学习课程(10-423/10-623 Generative AI)的第12次讲座,主要内容包括指令微调(Instruction Fine-tuning)和人类反馈强化学习(Reinforcement Learning with Human Feedback,RLHF)两个部分。原创 2024-10-01 16:50:36 · 923 阅读 · 0 评论 -
CMU 10423 Generative AI:lec11 参数高效微调PEFT(LoRA, adapters, prefix tuning, BitFit等)
该文件主要介绍了“参数高效微调(Parameter Efficient Fine-Tuning, PEFT)”在深度学习中的应用,尤其是如何在大规模预训练模型(例如大型语言模型和视觉Transformer)上实现高效的微调。PEFT的背景与定义:讨论了在对大型预训练模型进行微调时,传统的全参数微调方法在计算和内存方面非常昂贵,尤其是当模型参数数量非常大时。因此,PEFT旨在以更少的参数实现与全参数微调相当的性能。少样本学习(Few-shot Learning)原创 2024-09-30 18:18:59 · 824 阅读 · 0 评论 -
CMU 10423 Generative AI:lec10(few-shot、提示工程、上下文学习)
该文件主要内容涵盖了**In-context Learning(ICL)**的概念,讲解了零样本学习(Zero-shot Learning)、少样本学习(Few-shot Learning)、提示工程(Prompt Engineering)等主题。零样本学习与少样本学习(Zero-shot and Few-shot Learning)零样本学习:训练数据中没有任何包含测试数据标签的样本,模型需要从未见过的标签中进行推断。少样本学习。原创 2024-09-30 18:08:05 · 1088 阅读 · 0 评论 -
CMU 10423 Generative AI:lec7、8、9(专题2:一张图理解diffusion model结构、代码实现和效果)
Diffusion Model严格意义上最早源于2015年的《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》,但如下这篇论文才真正将Diffusion Model效果发扬光大,有点类似2013年的alexnet网络和1998年的lenet-5网络感觉。全称:时间:2020年作者人数:3人,加州伯克利大学论文地址:优缺点优点:生成图像的效果非常惊艳,超越VAE、生成式对抗网络等方法,SOTA级别。原创 2024-09-27 11:40:15 · 508 阅读 · 0 评论 -
CMU 10423 Generative AI:lec7、8、9(专题1:AE、VAE详解)
时间:2013.12论文:Auto-Encoding Variational作者:荷兰阿姆斯特丹大学,2人成就:ICLR 2024首个时间检验奖获奖评语:概率建模是对世界进行推理的最基本方式之一。这篇论文率先将深度学习与可扩展概率推理(通过所谓的重新参数化技巧摊销均值场变分推理)相结合,从而催生了变分自动编码器 (VAE)。这项工作的持久价值源于其优雅性。用于开发 VAE 的原理加深了我们对深度学习和概率建模之间相互作用的理解,并引发了许多后续有趣的概率模型和编码方法的开发。原创 2024-09-18 15:00:46 · 1093 阅读 · 0 评论 -
CMU 10423 Generative AI:lec7、8、9(Diffusion Models、VAEs)
本讲主要是为后续讲扩散模型(Diffusion Models)做铺垫。介绍了U-Net语义分割网络,以及无监督学习的基本假设、目标和一些经典的生成模型:自回归语言模型(GPT)、生成式对抗网络、扩散模型。最后初步介绍了扩散模型。这份讲义详细阐述了变分自编码器(VAE)的基础概念、结构和实际应用。通过变分推断和重参数化技巧,VAE能够有效地进行无监督学习,并生成高质量的图像或文本。原创 2024-09-18 14:46:18 · 1105 阅读 · 0 评论 -
CMU 10423 Generative AI:lec6(生成式对抗网络、有向图等模型 + 阅读材料:GAN论文)
本讲主要介绍生成式对抗网络(1-24页),还介绍了有向图模型、马尔可夫模型、无向图模型等内容(36-65页)。阅读材料是Ian Goodfellow的GAN论文以及作者自己写的教程性论文GAN Tutorial(57页)。快速了解GAN原理可以看我之前写的生成式对抗网络博客(内容源自优达学城中的代码):https://blog.csdn.net/weixin_42118657/article/details/120284204。原创 2024-09-14 17:57:52 · 808 阅读 · 0 评论 -
CMU 10423 Generative AI:lec5(Encoder-only Transformers + 阅读材料Bert, ViT)
介绍了CV一些常见任务领域介绍了transformer中encoder层和decoder层中attention的区别,举了仅用encoder层架构的模型bert、VIT模型例子介绍图像生成领域本讲有2篇阅读材料:一个是bert论文(2018年10月),一个ViT论文(2021年)。全称:时间:2018年10月作者人数:4人,谷歌论文地址:简短总结。原创 2024-09-14 14:40:23 · 1337 阅读 · 0 评论 -
CMU 10423 Generative AI:HW1(编程部分:在GPT-2模型中实现RoPE、GQA)
1在“Programming: RoPE and GQA”部分,主要任务是通过结合RoPE(旋转位置嵌入)和GQA(Grouped Query Attention,分组查询注意力)这两种机制,改进现有的GPT模型,并观察这些改进对模型性能的影响。以下是对RoPE和GQA的介绍:RoPE是一种相对位置嵌入方法,用来取代传统的绝对位置嵌入。在传统Transformer中,位置信息通过将位置嵌入直接加到输入的词向量中进行传播。而RoPE直接在每一层注意力计算中引入相对位置信息,旋转每个查询和键向量的一部分来嵌入这原创 2024-09-13 17:35:10 · 1327 阅读 · 0 评论 -
CMU 10423 Generative AI:HW1(理论部分)
备注:S24版GitHub上有某CMU学生分享了自己的全套理论+编程作业,以下内容的整理结合了我自己的理解查阅、GPT4的解答、以及CMU学生的答案。这次作业主要围绕生成式文本模型,具体包括以下几个部分:构建递归神经网络(RNN)用于语言建模,解答与RNN递归方程相关的数值问题,讨论双向RNN能否用于自回归语言模型。Transformer语言模型 (15分):滑动窗口注意力 (8分):编程题:RoPE与GQA (24分):题目大意如下:1.1 (3 分) 数值问题:考虑一个 RNN (Elman 网络),其原创 2024-09-11 19:00:23 · 715 阅读 · 0 评论 -
CMU 10423 Generative AI:lec4(必读:Sliding Window Attention,RoPE, GQA)
比较详细的研究了RoPE, GQA等现代大模型中的技术原创 2024-09-10 19:22:33 · 1119 阅读 · 0 评论 -
CMU 10423 Generative AI:lec4(Modern Transformers + CNNs)
该文件涵盖了现代 Transformer 和卷积神经网络 (CNN) 的基础和应用。现代 Transformer 架构:详细介绍了 RoPE(旋转位置嵌入)、GQA(分组查询注意力)和 Longformer 模型中的滑动窗口注意力机制。这些技术改善了 Transformer 模型在处理长序列时的效率和效果。语言建模:讨论了 RNN-LM 和 Transformer-LM 在语言建模中的应用,重点在于如何通过条件前序词生成下一个词。深度学习的发展历程。原创 2024-09-10 11:09:56 · 967 阅读 · 0 评论 -
CMU 10423 Generative AI:lec3(阅读材料:GPT-2 论文解读)
名称:GPT-2论文全称《Language Models are Unsupervised Multitask Learners》【语言模型是无监督的多任务学习者】时间:2019年2月作者:OpenAI 6人(负责人是ilya)代码:https://github.com/openai/gpt-2(没有提供训练代码,也没有大号预训练模型。。。一段话总结GPT-2:用的transformer解码器结构(48层decoder),15亿参数,模型输入是文本,输出也是文本。原创 2024-09-09 16:36:04 · 641 阅读 · 0 评论 -
CMU 10423 Generative AI:lec3(阅读材料:GPT1论文解读)
背景:在自然语言处理领域,带标注的数据较为稀缺,而无标注的数据则非常庞大。目的:作者希望利用大量无标注的文本数据,通过无监督训练生成一个预训练模型,随后该模型可以通过少量的标注数据进行微调,从而在多种自然语言处理任务(如文本分类、问答、推理、相似度检测等)中表现出色。方法先使用大规模未标注的文本语料库,对Transformer模型的【解码器部分】进行无监督训练,使其学会捕捉上下文和语言结构的深层语义信息。原创 2024-09-06 17:20:04 · 1580 阅读 · 0 评论 -
CMU 10423 Generative AI:lec3(Learning Large Language Models)
文件的主要内容是关于大型语言模型(LLMs)的学习过程,涵盖了预训练、微调和解码的各个方面。大型语言模型的学习框架:该讲义从深度学习和语言建模的基本概念出发,介绍了语言模型的训练步骤,包括如何计算梯度以及如何通过优化目标函数进行训练。递归神经网络(RNN)和Transformer模型:讲解了RNN语言模型和Transformer语言模型的工作原理,包括前向传播和反向传播算法,以及如何利用这些模型进行文本的生成和预测。损失函数和SGD训练。原创 2024-09-06 14:57:48 · 1312 阅读 · 0 评论 -
CMU 10423 Generative AI:lec2
该文件主要介绍了Transformer语言模型的背景、架构以及与其他语言模型的对比。语言模型的历史:文件首先介绍了在2017年之前使用的噪声信道模型在语音识别和机器翻译中的应用。这些模型通过结合转导模型和语言模型来进行预测。大规模语言模型的发展:讨论了早期的n-Gram语言模型,如Google n-Gram模型,这些模型基于网页文本进行训练,并覆盖多种语言。接着,文件还对比了近年来的一些大规模语言模型(LLMs),如GPT-2、GPT-3、PaLM等。原创 2024-09-05 18:31:26 · 907 阅读 · 0 评论 -
CMU 10423 Generative AI:HW0
熟悉PyTorch的基本使用:通过阅读教程和实践任务,学生能够掌握PyTorch的基本操作,包括模型构建、数据处理、训练和评估等。学习Weights & Biases工具的使用:通过在代码中集成wandb,学生可以学会如何追踪和可视化模型的训练过程和性能。探索不同的模型和优化器:通过修改初始模型结构和使用不同的优化器,学生可以理解不同设计选择对模型性能的影响。阅读PyTorch教程。原创 2024-09-05 16:33:41 · 930 阅读 · 0 评论 -
CMU 10423 Generative AI:lec1
该文件是卡内基梅隆大学机器学习系的 “10-423/10-623 Generative AI” 课程第一讲的概述。生成式AI的定义和目标:介绍了生成式人工智能(GenAI)的基本概念,并讨论了其在人工智能(AI)的不同子目标(如感知、推理、控制、规划、通信、创造力和学习)中的应用。生成模型的多种形式:讨论了生成模型在文本、图像、音乐、代码和视频生成中的应用,包括RNN语言模型、Transformer语言模型、GANs、Diffusion Models等。自动微分和RNN-LMs。原创 2024-09-03 15:19:12 · 1194 阅读 · 0 评论