自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 新闻文本分类-数据读取与数据分析

'read_csv'由三部分组成-‘train_set.csv' 读取的文件路径-sep='\t' 分隔符’sep‘为每列分割的字符,设置为't'nrows=100 读取行数'nrows',数据集较大,先设置为100下图为读取好的数据,第一列为新闻的类别,第二列为新闻的字符。

2023-10-08 14:08:52 154 1

原创 简单学点大模型-环境影响

该方法收集了该计算的4个主要变量的公开可用数据:(i)硬件的能耗,(ii)提供商计算区域的位置——我们假设该区域连接到其本地电网,(iii)该区域每千瓦时的二氧化碳排放量,以及(iv)提供商购买的潜在补偿。虽然许多云提供商都是碳中和的的,但由于他们连接的本地电网,他们的一些数据中心可能仍然是碳密集型的,而其他数据中心则是低碳的,仅由可再生能源供电。有关ML模型训练的详细信息作为输入:服务器的地理区域、GPU的类型和训练时间,并将产生的CO2eq的大致量作为输出。该方法对上一篇论文的方法进行了部分的反驳,

2023-09-21 22:29:29 117

原创 简单学点大模型-大模型之Adaptation

例如,在“I am learning LLM”的句子中,“-am”是辅助动词,“ learning”是主要动词,“ I”是主语名词,而“ LLM”是宾语。具体地,对于一个在训练在主任务上的大型神经网络,Probe是一个插入在其中间层的浅层神经网络,通常是一个分类器层。常见的做法是使用预训练的网络(例如在ImageNet上训练的分类1000类的网络)来重新fine-tuning(也叫微调),或者当做特征提取器。:模型微调可以获得更好的零样本学习能力,以适应新的、没有在训练中出现过的下游任务。

2023-09-20 22:50:46 440 1

原创 简单学点大模型-新的模型架构

MoE 将预测建模任务分解为若干子任务,在每个子任务上训练一个专家模型(Expert Model),开发一个门控模型(Gating Model),门控模块用于选择使用哪个专家,组合各种专家。为了解决这个问题,提出了一种方式,即将大模型拆分成多个小模型,对于一个样本来说,无需经过所有的小模型去计算,而只是激活一部分小模型进行计算,这样就节省了计算资源。然而,如果我们将门控函数。现在,我们转向另⼀类语言模型,基于检索的(或检索增强的、记忆增强的模型),它可以帮助我们突破稠密Transformer的缩放上限。

2023-09-20 00:06:19 499 1

原创 简单学点大模型-分布式训练

比如,上图中的最终得到的,如果它作为下⼀层网络的输入,那么它就需要被广播发送到两个设备上。当数据集较大,模型较小时,由于反向过程中为同步梯度产生的通信代价较小,此时选择数据并⾏⼀般比较有优势,常见的视觉分类模型,如 ResNet50,比较适合采用数据并行。单机多卡训练,即并行训练。神经网络的训练不仅需要多个设备进行计算,还涉及到设备之间的数据传输,只有协调好集群中的计算与通信,才能做高效的分布式训练。被切分到了各个设备上,每个设备只拥有模型的⼀部分,所有计算设备上的模型拼在⼀起,才是完整的模型。

2023-09-18 19:35:04 104

原创 简单学点大模型-模型训练

在梯度下降的时候由于数据不同维度分布的方差不一致,而每次计算的梯度的方向是垂直于当前计算点的等高线的方向,可能会产生这种波动而导致收敛缓慢。如上图把原句中15%的部分随机遮挡,遮挡的是“mouse”或“the”,80%的时间用[mask]token取代,10%的时间用随机token取代,10%的时间保持不变。我们知道曲面上方向导数的最大值的方向就代表了梯度的方向,因此我们在做梯度下降的时候,应该是沿着梯度的反方向进行权重的更新,可以有效的找到全局的最优解。在机器学习中,我们通常希望模型的损失越小越好。

2023-09-18 00:11:44 232

原创 简单学点大模型-模型架构

首先需要分出子词,比如说单词“looked"和“looking”为训练语料,从语料中构建词表[l,o,o,k,e,d,i,n,g],然后“lo”出现频率最高,分成[lo,o,k,e,d,i,n,g],接下来“loo”出现频率最高,分成[loo,k,e,d,i,n,gh],以此类推,最后被分成子词“look”、“ing”、“ed”。传统的神经网络(包括CNN),输入和输出都是相互独立的,例如一张图片的猫和狗是分隔开的,但是有些任务后续输出和之前的内容是相关的,局部的信息不足以使得后续的任务能够进行下去。

2023-09-17 00:37:59 275 1

原创 简单学点大模型-大模型法律

在大型语言模型的生命周期中,有两个主要领域与法律交叉:数据和应用。

2023-09-15 23:27:40 109 1

原创 简单学点大模型-大模型的数据

网络和私有数据的总量是巨大的,但是简单地将所有数据(甚至是Common Crawl)都用于训练并不能有效地利用计算资 源。数据的过滤和策划(如OpenWebText,C4,GPT-3数据集) 是必要的,但可能会导致偏见。策划非网络的高质量数据集(如 The Pile)是有前途的,但也需要仔细记录和审查这些数据集。

2023-09-14 23:02:28 224 1

原创 简单学点大模型-大模型的有害性

今天学习的是系统在面对特定任务时可能会出现的伤害,上游的语言大模型在产生伤害的方面起了很大的作用。大模型产生的伤害主要源自其“行为”,而非构造方法,因此这些伤害被称为“行为伤害”。产生伤害并不是语言模型的本意,这主要基于其训练的数据,但这些伤害影响的是人类。

2023-09-13 20:38:54 127

原创 简单学点大模型-大模型的能力

经过多个任务模型对GPT-3进行了评估。在某些任务上,比如语言建模,pen tree bank,lambada,GPT-3大幅度超越了现有技术的最高水平;在其他任务上,GPT-3与训练有素,拥有大量标签数据的系统竞争时,却明显落后,原则上可以利用大量的标签数据来适应GPT-3。语言模型规模的扩大和训练实例的数量增加可以提高GPT-3的性能。扩大语言模型的规模大大提高了任务云学习、少样本学习的性能,有时甚至与以前最先进的微调方法相比具有竞争力。

2023-09-12 22:46:34 89

原创 简单学点大模型-引言

语言模型是序列的概率分布 p。语言模型(LM)的经典定义是⼀种对令牌序列(token)的概率分布。假设我们有⼀个令牌集的词汇表。语⾔模型p为每个令牌序列∈ V分配⼀个概率(介于0和1之间的数字):从语言模型p中以概率p(x1:L)进⾏采样, 表示为:语言模型p会为排列顺序不同的两个句子分配相同的概率,但是排列顺序相同的句子被赋予的概率应该更高。直观上,⼀个好的语言模型应具有语言能力和世界知识。

2023-09-11 22:18:53 44

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除