一张图系列 - “position_embedding”

本文介绍了位置编码在Transformer模型中的重要性,包括embedding的概念、positionencoding的作用(如表示词序和相对位置)、多头注意力机制下的应用,以及绝对位置编码和相对位置编码(如RoPE)的定义、实现方法和演变过程。阅读者将了解如何通过正弦曲线实现位置编码,以及它如何增强模型处理词序变化的能力。
摘要由CSDN通过智能技术生成

关于位置编码,我感觉应该我需要知道点啥?

  1. 0、需要知道什么知识?

  2. multi head atten 计算

  3. 复数的常识

  4. 1、embedding 是什么?

  5. position embedding常识、概念,没有会怎样?

  6. 交换token位置,没有PE的话,atten怎么变化?

  7. 2、PE如何实现?需要什么特性?

  8. sin, cos 频率、周期、波长、如何转换?

  9. 为什么这么设计?是如何演进的?

  10. 三角位置编码有哪些重要特性?代码如何实现?

  11. 3、绝对位置编码&相对位置编码的 定义与分类

  12. 绝对位置编码

  13. 相对位置编码

  14. ROPE原理推导、外推长度?

  15. 4、ROPE的具体实现代码

  16. 实现方式1

  17. 实现方式2

什么是position_encoding:

Positional encoding 是在 transformer 模型中用于表示单词位置信息的一种技术。它的主要作用有:

  1. 在 transformer 模型中,由于attention机制是并行计算的,输入的词向量不包含顺序信息,需要positional encoding来表示单词位置。

  2. 让模型学习单词之间的相对位置关系,从而明确上下文语义。

  3. 允许模型学习词序信息,判断词语顺序是否重要。比如"little boy"和"boy little"在语义上是不同的。

  4. 通过在词向量中加入位置信息,可以帮助注意力机制学习句子中单词的相关程度。位置邻近的单词更可能有关联。

  5. Positional encoding一般通过在词向量中加入正弦曲线来实现。通过不同频率的正弦曲线来表示词语的相对位置。

  6. Positional encoding使得模型对词序变化更加鲁棒,能处理词序调整后的句子。

总之,Positional encoding为transformer模型提供了顺序信息,是实现transformer表征能力的重要组成部分。它让模型明确单词顺序和上下文关系,从而更好地理解语义。

参考链接:

1、十分钟读懂旋转编码(RoPE)

2、RoPE引起的长度外推思考

3、六种位置编码的代码实现及性能实验

4、图解Transformer系列一:Positional Encoding(位置编码)

5、Transformer中的位置编码(Position Encoding)

6、【OpenLLM 009】大模型基础组件之位置编码-万字长文全面解读LLM中的位置编码与长度外推性(上)

7、开源LLM大模型位置编码探索

文章首发在“小晨的AI工作室”
因为无法上传高清大图,请公众号回复“rope”进行下载原图。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值