![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
LLM
等风来随风飘
这个作者很懒,什么都没留下…
展开
-
大模型预训练数据工程
重复的数据在不同条件下具有的作用不同,不一定是好的,或者坏的作用。优质的重复数据某种程度上可以加强模型的相应能力。数据配比关注的是训练数据中的不同数据的类型数量,数据课程关注的是在训练大模型的过程中,不同类型数据训练的先后顺序。在获取数据的同时尽可能的保留与数据相关的元信息,这些元信息在后续模型训练中会发挥作用。不同的数据任务之间存在相互促进的作用,一个较好的数据训练顺序可以提升模型效果。可以使用Deita工具自动筛选高质量的数据,GitHub地址如下。大模型训练中,训练数据的配比会影响大模型的性能。原创 2024-03-03 15:01:56 · 571 阅读 · 0 评论 -
旋转位置编码原理及代码
旋转位置编码旋转位置编码的核心是找到对应的旋转矩阵LLaMA中旋转矩阵相关代码原创 2024-02-15 15:07:41 · 818 阅读 · 2 评论 -
RMSNorm原理及代码
代码来源于:https://github.com/huggingface/transformers/tree/main/src/transformers/models/llama/modeling_llama.py。在LLaMA中使用RMSNorm替代LayerNorm,因为RMSNorm相比LayerNorm,不需要计算样本与均值的差(减少了计算量,加快了训练速度)如下是LayerNorm与RMSNorm的公式。层归一化是对一个样本中的不同特征进行归一化。批量归一化是对一个批次内的数据进行归一化。原创 2024-02-14 22:48:57 · 694 阅读 · 0 评论 -
几种不同的self-attention
在进行大模型的训练和推理中会大量的使用self-attention,在显存中需要保存self-attention中的query、key和value矩阵。Multi-head attention中每个头都有对应的query、key和value矩阵,因此会占用大量显存。grouped-query attention通过分组的方式,同一个组内共用一个key和value矩阵,当分组数与头数相同时即为Multi-head attention,当分组数为1时则为Multi-query attention。原创 2024-02-13 23:07:17 · 396 阅读 · 0 评论 -
transformer_正余弦位置编码代码笔记
transformer输入的序列中,不同位置的相同词汇可能会表达不同的含义,通过考虑位置信息的不同来区分序列中不同位置的相同词汇。原创 2024-01-31 21:54:24 · 465 阅读 · 0 评论 -
transformer_多头注意力机制代码笔记
上述代码中初始化中定义了构建多头注意力机制代码的组件(结构),在forward的方法中将使用初始化中的组件构建多头注意力机制。从forward方法开始阅读,当使用到初始化方法中的代码时再进行阅读。以GPT-2中多头注意力机制代码为例。以下为对多头注意力机制代码做分步笔记。原创 2024-01-31 14:57:58 · 249 阅读 · 0 评论 -
Byte Pair Encoding(BPE)算法及代码笔记
本文以GPT-2中的BPE代码为例,主要记录了代码中Encoder里的bpe方法。原创 2024-01-28 22:37:13 · 687 阅读 · 0 评论