QWEN学习日记

       在参加datawhale的学习活动过程中,了解到了transformers-4.39.3中的Qwen2模型实现的相关知识,在此做一些总结和记录。

        首先,来及kimi的介绍是——transformers是由Hugging Face团队维护的一个非常流行的自然语言处理库,它包含了大量预训练的模型,用于各种NLP任务,如文本分类、问答、文本生成等。而Qwen2是这个库中基于torch开发实现的一个模型。下图是模型的大致框架:

其中Linear层其实就是对输入 x 执行了一个线性变换,类似于 Y = a * x + b;MLP通常指的是“多层感知机”(Multi-Layer Perceptron),这是一种常见的人工神经网络结构。在自然语言处理(NLP)中,尤其是在Transformer架构中,MLP通常用于处理和转换数据。

这个模型工作的大致流程是:

  • tokenizer将文本转为词表里面的数值。
  • 数值经过embedding得到一一对应的向量。
  • attention_mask是用来看见左边、右边,双向等等来设定。
  • 各类下游任务,Casual,seqcls等,基本都是基础模型model后面接对应的Linear层,还有损失函数不一样。

囿于时间有限以及本人基础较差,在大致框架上暂时只是掌握了这些内容,之后又了解了该模型所采用的注意力机制。

      以下内容来自通义千问本尊——

在传统的Transformer架构中,注意力机制主要通过Query(Q)、Key(K)和Value(V)三部分来实现。具体来说:

  • Query(查询)代表了我们想要关注的信息或者说是当前正在处理的部分;
  • Key(键)则包含了所有可能被关注的信息的表示;
  • Value(值)则是与这些信息相关的实际内容。

注意力分数是通过计算Query和Key之间的相似度得到的,然后这些分数经过softmax函数转换成权重,最后用这些权重去加权求和Values,得到最终的输出。这一过程允许模型在处理长序列输入时,有选择地聚焦于最相关的信息片段。

Qwen2所引入的“注意力QKV偏置”,很可能是为了增强模型在自注意力层中的灵活性和适应性。这里的“偏置”(Bias)通常是指在计算过程中添加的一个固定值,用以调整模型的学习倾向。在Qwen2中,这些偏置项可能被整合进Q、K、V的计算之中,允许模型在训练过程中学习到特定的调整量,从而更好地引导注意力分配。这意味着模型可以更加精准地根据输入序列的特性,动态调整注意力分布,提高对关键信息的关注度,尤其是在处理复杂语言结构或含有丰富语境的任务中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值