“简单学点大模型”学习笔记

skyseezhang123

已于 2023-09-21 20:40:52 修改

阅读量114

点赞数

文章标签：学习笔记

于 2023-09-11 23:08:01 首次发布

本文链接：https://blog.csdn.net/skyseezhang/article/details/132810996

版权

本文概述了大语言模型的基本概念，如自回归模型和Transformer架构，强调了其强大的文字生成能力和潜在的风险，如社会偏见和法律问题。还讨论了模型的训练、评估、微调以及对环境的影响，包括分布式训练和节能措施。

摘要由CSDN通过智能技术生成

《简单学点大模型》学习笔记-要点记录
第一部分：引言
1、语言模型基本概念
语言模型（LM）本质上是定义了基于文本内容（token）的文本序列的概率，文本序列可表示为X1:Xn。语言模型中比较重要的一种类型是自回归语言模型，也就是通过文本X1:Xn预测Xn+1:Xm，而其中的代表方法就包括N-gram模型和神经网络模型。
2、大模型的能力和风险
大语言模型具有极强的文字生成能力，具备极强的应用潜力，但也存在部分问题和风险，比较可靠性问题、社会偏见、安全和法律问题等。
第二部分：大模型的能力
通过从语言模型到任务模型的转化，大语言模型可以实现对多个任务的处理。评估任务完成效果的重要指标是“困惑度Perplexity”。GPT3模型在多个任务上的效果达到甚至超过了当时sota的水平，并且在其它多个任务上达到了不错的效果。
第三部分：大模型的有害性
大模型可能存在群体性能差异、社会偏见等问题，此外大模型生成的内容也可能存在有毒性和虚假情况。
第四部分：大模型的训练数据
大模型的训练数据覆盖广泛的领域、类型、语言等。GPT-2的数据集主要源自WebText, GPT-3的数据集主要源自Common Crawl。
第五部分：大模型法律
大型语言模型的生命周期包含收集训练数据、训练模型、适用下游任务、部署语言模型等步骤，其中和法律相关的步骤包括数据和应用两个环节。一般来说，使用大语言模型要符合版权要求，并能够公平使用。
第六部分：模型架构
对于模型而言，分词方法和模型架构是两个重要方面。分词是指如何将一个字符串拆分成多个标记；大模型的架构则主要是Transformer架构。常用的分词方法是Unigram model方法。它会通过统计每个词汇在训练数据出现的次数来估计其概率，并以此计算整个训练数据的最大似然概率。通过采用EM算法，不断调整词汇表，实现最优分词结果。大模型基础架构大多基于Transformer结构。Transformer结构由encoder和decoder两部分组成，各自又可以形成各类大模型的基础架构。例如，BERT, RoBERTa采用了encoder类型结构，擅长于解决辨别式任务；GPT系列则采用了decoder类型结构，擅长于解决生成式任务。Transformer结构采用了很多特别的方法，比如自注意力机制、位置嵌入编码等。
第七部分：大模型的训练
模型训练包含损失函数和优化算法两个重要方面。在损失函数上，不同结构的大模型（encoder-only, decoder-only, encoder-decoder）有所差异。优化算法主要包括参数初始化方法、学习率设置、Adam等优化方法等。
第八部分：分布式训练
分布式训练主要是指通过使用多个GPU对模型进行训练，从而达到提高训练速度或解决单GPU无法解决的问题。分布式训练的方法包括数据并行训练、模型并行训练、流水并行训练。也可以对以上方法进行混合，形成混合并行训练方法，GPT3的训练过程便是如此。
第九部分：新的模型架构
考虑到通过堆叠模型层数、提高模型规模逐渐遇到了困难，另外一些相当于提高模型规模的方法被探索了出来，例如”混合专家模型“和”基于检索的方法“。
第十部分：大模型微调
考虑到下游应用任务和大语言模型训练数据在格式、主题、时间等多个方面存在差异，对预训练好的大预言模型进行微调往往能获得更好的效果。微调方法包括Probing（利用大模型"抽取特征”，只训练最后的少量浅层神经网络），Fine-tuning（使用下游训练数据进行全量参数调整），和 Lightweight fine-tuning（优化少量特别的参数，比如prompt finetuning, prefix finetuning, lora等）。
第十一部分：大模型对环境的影响
大模型的训练和运行依赖于相关的计算设备，这些计算设备在其生命周期中会消耗相应的能源和材料，而这也往往对应着碳排放，并最终对气候产生影响。