自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Qwen-agent流程

本文章以qwen-agent项目中examples/assistant_add_custom_tool.py的运行过程为切入点,分析其在运行过程中对于后台大模型服务调用时的prompt,来理解agent的实现思路examples/assistant_add_custom_tool.py期望达到的效果是可以运用代码生成器,图片生成器实现从文本到图片的过程。

2024-08-02 10:17:09 224

原创 prompt 工程

六大类别,包括:

2024-07-11 14:46:45 72

原创 激活函数相关思考

GLU通过门控机制实现了自适应的非线性转换,这使得模型能够在训练过程中自动调整每个特征的重要性,从而提高模型的性能。含义:x乘以sigmoid结果,sigmoid类似门控概念,正数趋近于1,负数趋近于0,输入为正数时逐渐趋向于线性变换,而在输入为负数时则具有非线性的抑制效果。在实际应用中,输入x,W和b会被分为两部分,然后一部分作为激活函数的输入,另一部分直接与激活函数的结果做逐元素乘法。最终公式:GLU(x)= sigmoid(x A+ b)⊗ (xC + d)公式:ReLU(x)= max(0, x)

2024-06-06 10:43:17 158

原创 SFT思考

目前一个比较主流的共识是,知识和能力都是在预训练期间train进模型的,而后续训练中,针对的不管是指令、对话还是偏好,统统是为了理解和遵循人类的命令,是的大模型能够通过 zero-shot 的方式被使用。大抵的由来,笔者认为源自于Google的T5模型之后,NLP任务的范式开始转向由 prompt+generation 统一,往后的一系列工作包括Zero-shot、Few-shot或者COT等都在试图利用这种新的范式更好的完成下游任务。模型能力相对应的指令数据配比问题,其实是每个算法项目的核心技术之一。

2024-06-04 15:31:30 148

原创 transformers中的scale为什么需要除以维度的开方

当输入信息的维度 d 比较高,点积模型的值通常有比较大方差,从而导致 softmax 函数的梯度会比较小(有的很接近1,有的很接近0),导致输出的结果会向原本数值接近1的偏移。原因来自于后续需要经过softmax进行缩放,所以根据softmax函数的特性,其本质是将输入缩放到同一分布中,例如(0,1),其计算过程是先用以e为底的函数拉大,再缩小。如果计算softmax的元素方差太大,将会导致softmax结果稀疏,进而导致梯度稀疏。self-attention中的scale为什么需要除以维度的开方。

2024-05-31 10:19:39 168

原创 In-context learning上下文学习的探讨

任务模式的识别能力大概来源于大规模预训练,指令微调过程中所见过的知识的综合总结,也就是对于已经学习到知识的激活。任务学习的能力来源于大规模预训练,指令微调过程中所见过的知识,思维链训练带来的推理能力综合得到的。基于贝叶斯逻辑的思考:大模型在大量数据的预训练,指令微调处理中学习的各种各样的知识为基础,因为提示上下文的触发激活了相关知识的总结,融合。大模型之前的预训练,指令微调过程中未见过的窄领域数据时,需要同时学习到回答格式和新的标签映射关系也就是新的知识。上下文学习到底学的是什么。上下文学习是如何工作的。

2024-04-30 10:11:37 144

原创 RLHF的细节与实现逻辑

Stage 1,Stage 2的目的就是得到一个reward model使其可以自动判断喜好,Stage 1 SFT得到的模型不会在之后的过程中使用,因为其只是一个中间件,我们最终需要得到的是一个经过reward model调教之后的模型。过程中得出的loss只对actor模型,critic模型进行了参数调整,ref|initial模型和reward模型都没有进行参数调整,只是作为中间变量prompt数据集中exprience的产出。非chat类型的数据,想要学习的领域数据,或者偏好数据,指令数据类型。

2024-04-29 13:53:17 950

原创 大模型训练的相关细节与注意事项

为了实现更平衡的分布并控制数据集的排序,collossalAI采用了一种方法,每个类别对应一个子数据集,将每个子数据集划分为离散的箱。借鉴collossalAI-llama-2的训练过程,此次训练的主要目标是增加大模型的表达能力,增加中文方面的处理能力,分为三个步骤。训练数据集中的分布,以及各种主题相关数据点的排列,会显著影响模型的整体性能,特别是在LLaMA-2的持续预训练的情况下。实际处理数据的过程中的运行逻辑,运用已经收集好的词表将每条数据转换成token id的格式。

2024-04-29 11:37:29 1571

原创 embedding的直接相加,点积计算相似度的原理

三者都用one hot表示,然后concat起来,然后才去过一个单层全连接(线性变换),最终结果等价的效果就是三个Embedding相加,因为线性变换中的矩阵计算逻辑。维度映射层面上:Embedding的数学本质,就是以。推理过程中的计算上:现在我们将。为输入的单层全连接。

2024-04-29 11:15:59 360

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除