大模型基础组件之位置编码-万字长文全面解读LLM中的位置编码与长度外推性(上)

本文深入探讨Transformer中的位置编码,包括为何需要位置编码、正弦位置编码的性质与应用、不同类型的绝对和相对位置编码,以及混合和多维位置编码。同时,文章讨论了位置编码的长度外推性问题,并介绍了Decoder位置编码的特殊性。内容覆盖了从经典到最新研究的各种位置编码方法,旨在全面理解LLM中的位置编码机制。
摘要由CSDN通过智能技术生成

0.序章

本文将介绍LLM中的主流位置编码及其实现,作为OpenLLM 009,也作为LLM反思系列的第三篇!

LLM基础组件

  • tokenization&tokenizers:分词算法与分词器,done
  • 位置编码
  • attention机制
  • 基础架构与attention mask
  • 归一化
  • 激活函数
    LLM炼丹术
  • 预训练系列
  • PEFT:参数高效微调技术,done
  • RLHF
  • ChatGPT的最小复现实践
  • 文本生成系列

抛砖引玉

下面提供一些问题供大家思考,也许带着疑问会有更好的阅读效果,希望可以起到抛砖引玉的作用。

  • transformer的位置编码是怎样的?
  • 位置编码为什么可以和词向量直接相加?
  • BERT的位置编码是怎样的?为什么和transformer不同?
  • LLaMA的位置编码是怎样的?
  • GLM的位置编码又是怎样的?
  • 有哪些位置编码?有何不同?
  • 训练好的位置编码长度如何外推?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值