大模型基础组件之位置编码-万字长文全面解读LLM中的位置编码与长度外推性（上）

最新推荐文章于 2024-09-12 18:02:47 发布

u013250861

最新推荐文章于 2024-09-12 18:02:47 发布

阅读量313

点赞数

分类专栏： LLM 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/132138320

版权

LLM 专栏收录该内容

108 篇文章 233 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨Transformer中的位置编码，包括为何需要位置编码、正弦位置编码的性质与应用、不同类型的绝对和相对位置编码，以及混合和多维位置编码。同时，文章讨论了位置编码的长度外推性问题，并介绍了Decoder位置编码的特殊性。内容覆盖了从经典到最新研究的各种位置编码方法，旨在全面理解LLM中的位置编码机制。

摘要由CSDN通过智能技术生成

0.序章

本文将介绍LLM中的主流位置编码及其实现，作为OpenLLM 009，也作为LLM反思系列的第三篇！

LLM基础组件

tokenization&tokenizers：分词算法与分词器，done
位置编码
attention机制
基础架构与attention mask
归一化
激活函数
LLM炼丹术
预训练系列
PEFT：参数高效微调技术，done
RLHF
ChatGPT的最小复现实践
文本生成系列

抛砖引玉

下面提供一些问题供大家思考，也许带着疑问会有更好的阅读效果，希望可以起到抛砖引玉的作用。

transformer的位置编码是怎样的？
位置编码为什么可以和词向量直接相加？
BERT的位置编码是怎样的？为什么和transformer不同？
LLaMA的位置编码是怎样的？
GLM的位置编码又是怎样的？
有哪些位置编码？有何不同？
训练好的位置编码长度如何外推？

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。