“简单学点大模型”学习笔记

本文概述了大语言模型的基本概念,如自回归模型和Transformer架构,强调了其强大的文字生成能力和潜在的风险,如社会偏见和法律问题。还讨论了模型的训练、评估、微调以及对环境的影响,包括分布式训练和节能措施。
摘要由CSDN通过智能技术生成

《简单学点大模型》学习笔记-要点记录
第一部分:引言
1、语言模型基本概念
语言模型(LM)本质上是定义了基于文本内容(token)的文本序列的概率,文本序列可表示为X1:Xn。语言模型中比较重要的一种类型是自回归语言模型,也就是通过文本X1:Xn预测Xn+1:Xm,而其中的代表方法就包括N-gram模型和神经网络模型。
2、大模型的能力和风险
大语言模型具有极强的文字生成能力,具备极强的应用潜力,但也存在部分问题和风险,比较可靠性问题、社会偏见、安全和法律问题等。
第二部分:大模型的能力
通过从语言模型到任务模型的转化,大语言模型可以实现对多个任务的处理。评估任务完成效果的重要指标是“困惑度Perplexity”。GPT3模型在多个任务上的效果达到甚至超过了当时sota的水平,并且在其它多个任务上达到了不错的效果。
第三部分:大模型的有害性
大模型可能存在群体性能差异、社会偏见等问题,此外大模型生成的内容也可能存在有毒性和虚假情况。
第四部分:大模型的训练数据
大模型的训练数据覆盖广泛的领域、类型、语言等。GPT-2的数据集主要源自WebText, GPT-3的数据集主要源自Common Crawl。
第五部分:大模型法律
大型语言模型的生命周期包含收集训练数据、训练模型、适用下游任务、部署语言模型等步骤,其中和法律相关的步骤包括数据和应用两个环节。一般来说,使用大语言模型要符合版权要求,并能够公平使用。
第六部分:模型架构
对于模型而言,分词方法和模型架构是两个重要方面。分词是指如何将一个字符串拆分成多个标记;大模型的架构则主要是Transformer架构。常用的分词方法是Unigram model方法。它会通过统计每个词汇在训练数据出现的次数来估计其概率,并以此计算整个训练数据的最大似然概率。通过采用EM算法,不断调整词汇表,实现最优分词结果。大模型基础架构大多基于Transformer结构。Transformer结构由encoder和decoder两部分组成,各自又可以形成各类大模型的基础架构。例如,BERT, RoBERTa采用了encoder类型结构,擅长于解决辨别式任务;GPT系列则采用了decoder类型结构,擅长于解决生成式任务。Transformer结构采用了很多特别的方法,比如自注意力机制、位置嵌入编码等。
第七部分:大模型的训练
模型训练包含损失函数和优化算法两个重要方面。在损失函数上,不同结构的大模型(encoder-only, decoder-only, encoder-decoder)有所差异。优化算法主要包括参数初始化方法、学习率设置、Adam等优化方法等。
第八部分:分布式训练
分布式训练主要是指通过使用多个GPU对模型进行训练,从而达到提高训练速度或解决单GPU无法解决的问题。分布式训练的方法包括数据并行训练、模型并行训练、流水并行训练。也可以对以上方法进行混合,形成混合并行训练方法,GPT3的训练过程便是如此。
第九部分:新的模型架构
考虑到通过堆叠模型层数、提高模型规模逐渐遇到了困难,另外一些相当于提高模型规模的方法被探索了出来,例如”混合专家模型“和”基于检索的方法“。
第十部分:大模型微调
考虑到下游应用任务和大语言模型训练数据在格式、主题、时间等多个方面存在差异,对预训练好的大预言模型进行微调往往能获得更好的效果。微调方法包括Probing(利用大模型"抽取特征”,只训练最后的少量浅层神经网络),Fine-tuning(使用下游训练数据进行全量参数调整),和 Lightweight fine-tuning(优化少量特别的参数,比如prompt finetuning, prefix finetuning, lora等)。
第十一部分:大模型对环境的影响
大模型的训练和运行依赖于相关的计算设备,这些计算设备在其生命周期中会消耗相应的能源和材料,而这也往往对应着碳排放,并最终对气候产生影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值