lucky_append-CSDN博客

原创通俗易懂的方式讲解RoPE位置信息编码的推理逻辑

RoPE（Rotary Positional Embedding）是一种位置编码方法，它被设计用于 Transformer 模型中，尤其是针对长序列的任务。RoPE 的主要思想是通过旋转操作来编码位置信息，而不是像传统 Transformer 那样使用加法或者乘法。

2024-08-30 15:48:18 602

原创 bert的位置信息编码和transformer的位置信息编码有什么不同

使用周期性的位置编码，旨在通过正弦和余弦函数来表示位置信息。这种编码方式可以处理任意长度的输入序列，并且能够帮助模型学习到长距离依赖关系。BERT使用可学习的位置嵌入，这些位置嵌入是在训练过程中逐步优化的。这种方法适用于固定长度的输入序列，并且能够更好地适应特定任务的需求。这两种方法都有效地解决了位置信息的问题，但采用的方法略有不同。Transformer 的位置编码更加通用，而 BERT 的位置编码则更加灵活，可以根据具体任务进行微调。

2024-08-30 15:46:23 678

原创 Qwen-agent流程

本文章以qwen-agent项目中examples/assistant_add_custom_tool.py的运行过程为切入点，分析其在运行过程中对于后台大模型服务调用时的prompt，来理解agent的实现思路examples/assistant_add_custom_tool.py期望达到的效果是可以运用代码生成器，图片生成器实现从文本到图片的过程。

2024-08-02 10:17:09 625

原创 prompt 工程

六大类别，包括：

2024-07-11 14:46:45 155

原创激活函数相关思考

GLU通过门控机制实现了自适应的非线性转换，这使得模型能够在训练过程中自动调整每个特征的重要性，从而提高模型的性能。含义：x乘以sigmoid结果，sigmoid类似门控概念，正数趋近于1，负数趋近于0，输入为正数时逐渐趋向于线性变换，而在输入为负数时则具有非线性的抑制效果。在实际应用中，输入x，W和b会被分为两部分，然后一部分作为激活函数的输入，另一部分直接与激活函数的结果做逐元素乘法。最终公式：GLU（x）= sigmoid（x A+ b）⊗ （xC + d）公式：ReLU（x）= max（0, x）

2024-06-06 10:43:17 222 1

原创 SFT思考

目前一个比较主流的共识是，知识和能力都是在预训练期间train进模型的，而后续训练中，针对的不管是指令、对话还是偏好，统统是为了理解和遵循人类的命令，是的大模型能够通过 zero-shot 的方式被使用。大抵的由来，笔者认为源自于Google的T5模型之后，NLP任务的范式开始转向由 prompt+generation 统一，往后的一系列工作包括Zero-shot、Few-shot或者COT等都在试图利用这种新的范式更好的完成下游任务。模型能力相对应的指令数据配比问题，其实是每个算法项目的核心技术之一。

2024-06-04 15:31:30 575

原创 transformers中的scale为什么需要除以维度的开方

当输入信息的维度 d 比较高，点积模型的值通常有比较大方差，从而导致 softmax 函数的梯度会比较小(有的很接近1,有的很接近0)，导致输出的结果会向原本数值接近1的偏移。原因来自于后续需要经过softmax进行缩放，所以根据softmax函数的特性，其本质是将输入缩放到同一分布中，例如（0,1），其计算过程是先用以e为底的函数拉大，再缩小。如果计算softmax的元素方差太大，将会导致softmax结果稀疏，进而导致梯度稀疏。self-attention中的scale为什么需要除以维度的开方。

2024-05-31 10:19:39 324

原创 In-context learning上下文学习的探讨

任务模式的识别能力大概来源于大规模预训练，指令微调过程中所见过的知识的综合总结，也就是对于已经学习到知识的激活。任务学习的能力来源于大规模预训练，指令微调过程中所见过的知识，思维链训练带来的推理能力综合得到的。基于贝叶斯逻辑的思考：大模型在大量数据的预训练，指令微调处理中学习的各种各样的知识为基础，因为提示上下文的触发激活了相关知识的总结，融合。大模型之前的预训练，指令微调过程中未见过的窄领域数据时，需要同时学习到回答格式和新的标签映射关系也就是新的知识。上下文学习到底学的是什么。上下文学习是如何工作的。

2024-04-30 10:11:37 222

原创 RLHF的细节与实现逻辑

Stage 1，Stage 2的目的就是得到一个reward model使其可以自动判断喜好，Stage 1 SFT得到的模型不会在之后的过程中使用，因为其只是一个中间件，我们最终需要得到的是一个经过reward model调教之后的模型。过程中得出的loss只对actor模型，critic模型进行了参数调整，ref|initial模型和reward模型都没有进行参数调整，只是作为中间变量prompt数据集中exprience的产出。非chat类型的数据，想要学习的领域数据，或者偏好数据，指令数据类型。

2024-04-29 13:53:17 1133

原创大模型训练的相关细节与注意事项

为了实现更平衡的分布并控制数据集的排序，collossalAI采用了一种方法，每个类别对应一个子数据集，将每个子数据集划分为离散的箱。借鉴collossalAI-llama-2的训练过程，此次训练的主要目标是增加大模型的表达能力，增加中文方面的处理能力，分为三个步骤。训练数据集中的分布，以及各种主题相关数据点的排列，会显著影响模型的整体性能，特别是在LLaMA-2的持续预训练的情况下。实际处理数据的过程中的运行逻辑，运用已经收集好的词表将每条数据转换成token id的格式。

2024-04-29 11:37:29 1709