RoPE（旋转位置编码）详解【代码&公式】

u013250861

已于 2025-06-04 21:53:40 修改

阅读量21

点赞数

分类专栏： # LLM/Transformer 文章标签： pytorch 深度学习人工智能 RoPE\

于 2025-06-04 21:45:18 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/148435393

版权

LLM/Transformer 专栏收录该内容

51 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

RoPE（Rotary Position Embedding）通过将输入向量在每个位置上进行旋转变换，将位置信息编码进向量表示中。旋转角度随着位置（m）和维度（k）的变化而变化，这使得模型能够捕捉到序列中的相对位置信息。

一、最简单场景：dim=2

import torch

# 示例使用
batch_size = 1
seq_len = 3
D = 2  # 嵌入维度，必须为偶数，此处为了方便解释，设置为2
x = t

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

u013250861

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

Llama改进之——RoPE旋转位置编码

日积月累，天道酬勤

05-29

2421

旋转位置编码从理论到实战。

Llama旋转位置编码代码实现及详解

laice的博客

11-10

709

中介绍了旋转位置编码（RoPE）的特点和优势，这种输入长度动态可变的优势使得在Llama编码时，不需要掩码将多余的嵌入掩住。为了详细了解RoPE是如何实现的，接下来我们使用代码一步一步的来亲自实现RoPE编码！得到了角度theta之后，我们就可以在复平面中对编码进行旋转了，在复平面中根据公式（cos。然后我们对每个token中每个元素对计算要旋转的角度。y) j 可以实现位置的旋转了。

参与评论您还未登录，请先登录后发表或查看评论

Rotary Position Embedding (RoPE, 旋转式位置编码) | 原理讲解+torch代码实现

热门推荐

weixin_43646592的博客

05-29

4万+

Rotary Position Embedding (RoPE, 旋转式位置编码) | 原理讲解+torch代码实现

旋转位置编码RoPE总结

PennyYu123的博客

07-14

4887

Rotary Position Embedding (RoPE)可谓是今年Transformer模型改进中的一大热门内容，在大模型时代，RoPE在LLaMA、ChatGLM、Palm中得到应用，并证明其有效性。RoPE的诞生可以追溯到2021年，由苏剑林大神在《RoFormer: Enhanced Transformer with Rotary Position Embedding》首次提出，有效地改善了传统位置编码不能很好地捕捉相对位置的问题，同时也为长度外推提供了可扩展性。Markdown。

大模型系列：快速通俗理解Transformer旋转位置编码RoPE

datian1234的博客

10-24

3019

旋转位置编码RoPE（Rotary Position Embedding）是一种Transformer模型中的位置编码策略，它广泛应用于LLama，ChatGLM等大模型，本篇先介绍RoPE的实现步骤和源码，再深入讲解RoPE涉及到的数学原理，力求做到从易到难，学习曲线平滑。

大模型都在用的：旋转位置编码

xian0710830114的专栏

04-26

7444

绝对位置编码和相对位置编码都有局限性，比如绝对位置编码不能直接表征token的相对位置关系；相对位置编码过于复杂，影响效率。于是诞生了一种用绝对位置编码的方式实现相对位置编码的编码方式——旋转位置编码（RotaryPositionEmbedding,RoPE），兼顾效率和相对位置关系。 RoPE的核心思想是通过旋转的方式将位置信息编码到每个维度，从而使得模型能够捕捉到序列中元素的相对位置信息。现在已经在很多大模型证明了其有效性，比如ChatGLM、LLaMA等。

RoPE详细解读

weixin_43214046的博客

06-28

1260

RoPE 旋转位置编码技术解读

Llama为何要采用RoPE旋转位置编码？

m0_64752471的博客

09-29

973

LLM中的RoPE位置编码代码解析与RoPE的性质分析（一）

上帝是个娘们的博客

05-27

1643

RoPE旋转位置编码

weixin_40777649的博客

12-27

902

【代码】RoPE旋转位置编码。

roformer:旋转变压器

03-25

旋转变压器 Rotary Transformer，简称RoFormer，是我们自研的语言模型之一，主要是为Transformer结构设计了新的旋转式位置编码（Rotary Position Embedding，RoPE）。RoPE具有良好的理论性质，并且是目前唯一一种可以应用到线性注意的绝对位置编码，目前来看实验结果也颇为不错。详细介绍： : 依赖 bert4keras 0.10.4 参考配置：在24G显存的3090上，跑maxlen = 1024，batch_size能跑到8以上。下载（提取码：xy9x）引用 Bibtex： @techreport{zhuiyiroformer, title={RoFormer: Transformer with Rotary Position Embeddings - ZhuiyiAI}, author={Jianlin Su}

RoPE（旋转式位置编码）

qq_41898761的博客

06-13

3469

对q,k进行操作（f（））使得他们带上位置m,n的绝对位置信息，通过内积后，希望结果带上相对位置信息，因此假设存在下列恒等关系假设f(q,0)=q 和f(k,0)=k 先求出在二维情景下的情况，在推广到高纬度借助复数来求解。在复数中有⟨q,k⟩=Re[qk∗]，Re[] 代表复数的实部，所以我们有简单起见，我们假设存在复数g(q,k,m−n)，使得f(q,m)f∗(k,n)=g(q,k,m−n)，然后我们用复数的指数形式，设那么代入方程后就得到方程组...

大模型学习-基础篇（二）RoPE旋转位置编码

qq_43671025的博客

09-05

1396

fqmcosmθ−sinmθsinmθcosmθq0q1fqmcosmθsinmθ−sinmθcosmθq0q1以及三个关键的理解：1.不同位置，转角不一样。转角差包含了相对位置信息。2.维度：分成高频和低频高频：短距离低频：长距离3.高频外推性强，低频插值能力强。b站上有相关的介绍视频，可以参考观看，老师讲的很好。

什么是RoPE-旋转位置编码？

TFATS的博客

01-12

3782

我们知道句子中不同词语之前的位置信息十分重要，但是self-attention框架无法直接利用位置信息，因此研究者提出了许多方法将位置信息编码到学习过程中。一是绝对位置编码方法，将位置信息直接加入到输入中；二是相对位置编码方法，研究者通过微调attention的结构，使它具有识别token位置信息的能力。本文作者详细梳理了位置编码的流派，提出了一种旋转位置编码方式RoPE，并从数学角度证明RoPE带来的诸多优点。

十分钟读懂旋转编码（RoPE）

zenRRan的博客

09-05

5050

作者：绝密伏击单位：奇虎360高级算法专家进NLP群—>加入NLP交流群旋转位置编码（Rotary Position Embedding，RoPE）是论文 Roformer: Enhanced Transformer With Rotray Position Embedding 提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的...

旋转位置编码（Rotary Position Embedding, RoPE）

梁小憨憨的博客

05-22

748

最近看代码，看到了一些旋转矩阵编码的内容，学习了一下，这里记录一下方便以后查阅。

python学习打卡day40

2201_75852821的博客

05-31

1052

仔细学习下测试和训练代码的逻辑，这是基础，这个代码框架后续会一直沿用，后续的重点慢慢就是转向模型定义阶段了。dropout操作：训练阶段随机丢弃神经元，测试阶段eval模式关闭dropout。1.彩色和灰度图片测试和训练的规范写法：封装在函数中。展平操作：除第一个维度batchsize外全部展平。彩色和灰度图片测试和训练的规范写法：封装在函数中。训练和测试的规范写法。

PyTorch——非线性激活（5）

最新发布

qq_56238664的博客

06-03

472

非线性激活函数的作用是让神经网络能够理解更复杂的模式和规律。如果没有非线性激活函数，神经网络就只能进行简单的加法和乘法运算，没法处理复杂的问题。非线性变化的目的就是给我们的网络当中引入一些非线性特征。

2023 年 PYTORCH[特殊字符]深入课程

weixin_42380711的博客

06-02

1155

89.2 PyTorch 注意力 Transformer 模型构建。98.2 PyTorch Transformer NLP 模型构建。69.2 PyTorch Transformer模型构建。77.2 PyTorch图Transformer模型构建。100.2 PyTorch VAE 异常检测模型构建。67.2 PyTorch StyleGAN模型构建。79.2 PyTorch NLP持续学习模型构建。90.2 PyTorch 小样本语义分割模型构建。92.2 PyTorch NLP 半监督模型构建。

位置编码公式

03-26