我的薯条呢-CSDN博客

原创新闻文本分类-数据读取与数据分析

'read_csv'由三部分组成-‘train_set.csv' 读取的文件路径-sep='\t' 分隔符’sep‘为每列分割的字符，设置为't'nrows=100 读取行数'nrows'，数据集较大，先设置为100下图为读取好的数据，第一列为新闻的类别，第二列为新闻的字符。

2023-10-08 14:08:52 154 1

该方法收集了该计算的4个主要变量的公开可用数据：（i）硬件的能耗，（ii）提供商计算区域的位置——我们假设该区域连接到其本地电网，（iii）该区域每千瓦时的二氧化碳排放量，以及（iv）提供商购买的潜在补偿。虽然许多云提供商都是碳中和的的，但由于他们连接的本地电网，他们的一些数据中心可能仍然是碳密集型的，而其他数据中心则是低碳的，仅由可再生能源供电。有关ML模型训练的详细信息作为输入：服务器的地理区域、GPU的类型和训练时间，并将产生的CO2eq的大致量作为输出。该方法对上一篇论文的方法进行了部分的反驳，

2023-09-21 22:29:29 117

原创简单学点大模型-大模型之Adaptation

例如，在“I am learning LLM”的句子中，“-am”是辅助动词，“ learning”是主要动词，“ I”是主语名词，而“ LLM”是宾语。具体地，对于一个在训练在主任务上的大型神经网络，Probe是一个插入在其中间层的浅层神经网络，通常是一个分类器层。常见的做法是使用预训练的网络（例如在ImageNet上训练的分类1000类的网络）来重新fine-tuning（也叫微调），或者当做特征提取器。：模型微调可以获得更好的零样本学习能力，以适应新的、没有在训练中出现过的下游任务。

2023-09-20 22:50:46 440 1

原创简单学点大模型-新的模型架构

MoE 将预测建模任务分解为若干子任务，在每个子任务上训练一个专家模型（Expert Model），开发一个门控模型（Gating Model），门控模块用于选择使用哪个专家，组合各种专家。为了解决这个问题，提出了一种方式，即将大模型拆分成多个小模型，对于一个样本来说，无需经过所有的小模型去计算，而只是激活一部分小模型进行计算，这样就节省了计算资源。然而，如果我们将门控函数。现在，我们转向另⼀类语言模型，基于检索的（或检索增强的、记忆增强的模型），它可以帮助我们突破稠密Transformer的缩放上限。

2023-09-20 00:06:19 499 1

原创简单学点大模型-分布式训练

比如，上图中的最终得到的，如果它作为下⼀层网络的输入，那么它就需要被广播发送到两个设备上。当数据集较大，模型较小时，由于反向过程中为同步梯度产生的通信代价较小，此时选择数据并⾏⼀般比较有优势，常见的视觉分类模型，如 ResNet50，比较适合采用数据并行。单机多卡训练，即并行训练。神经网络的训练不仅需要多个设备进行计算，还涉及到设备之间的数据传输，只有协调好集群中的计算与通信，才能做高效的分布式训练。被切分到了各个设备上，每个设备只拥有模型的⼀部分，所有计算设备上的模型拼在⼀起，才是完整的模型。

2023-09-18 19:35:04 104

原创简单学点大模型-模型训练

在梯度下降的时候由于数据不同维度分布的方差不一致，而每次计算的梯度的方向是垂直于当前计算点的等高线的方向，可能会产生这种波动而导致收敛缓慢。如上图把原句中15%的部分随机遮挡，遮挡的是“mouse”或“the”，80%的时间用[mask]token取代，10%的时间用随机token取代，10%的时间保持不变。我们知道曲面上方向导数的最大值的方向就代表了梯度的方向，因此我们在做梯度下降的时候，应该是沿着梯度的反方向进行权重的更新，可以有效的找到全局的最优解。在机器学习中，我们通常希望模型的损失越小越好。

2023-09-18 00:11:44 232

原创简单学点大模型-模型架构

首先需要分出子词，比如说单词“looked"和“looking”为训练语料，从语料中构建词表[l,o,o,k,e,d,i,n,g]，然后“lo”出现频率最高，分成[lo,o,k,e,d,i,n,g]，接下来“loo”出现频率最高，分成[loo,k,e,d,i,n,gh]，以此类推，最后被分成子词“look”、“ing”、“ed”。传统的神经网络（包括CNN)，输入和输出都是相互独立的，例如一张图片的猫和狗是分隔开的，但是有些任务后续输出和之前的内容是相关的，局部的信息不足以使得后续的任务能够进行下去。

2023-09-17 00:37:59 275 1

2201_75734742的博客

原创新闻文本分类-数据读取与数据分析

原创简单学点大模型-环境影响

原创简单学点大模型-大模型之Adaptation

原创简单学点大模型-新的模型架构

原创简单学点大模型-分布式训练

原创简单学点大模型-模型训练

原创简单学点大模型-模型架构

原创简单学点大模型-大模型法律

原创简单学点大模型-大模型的数据

原创简单学点大模型-大模型的有害性

原创简单学点大模型-大模型的能力

原创简单学点大模型-引言

空空如也

空空如也