0.序章
本文将介绍LLM中的主流位置编码及其实现,作为OpenLLM 009,也作为LLM反思系列的第三篇!
LLM基础组件
- tokenization&tokenizers:分词算法与分词器,done
- 位置编码
- attention机制
- 基础架构与attention mask
- 归一化
- 激活函数
LLM炼丹术 - 预训练系列
- PEFT:参数高效微调技术,done
- RLHF
- ChatGPT的最小复现实践
- 文本生成系列
抛砖引玉
下面提供一些问题供大家思考,也许带着疑问会有更好的阅读效果,希望可以起到抛砖引玉的作用。
- transformer的位置编码是怎样的?
- 位置编码为什么可以和词向量直接相加?
- BERT的位置编码是怎样的?为什么和transformer不同?
- LLaMA的位置编码是怎样的?
- GLM的位置编码又是怎样的?
- 有哪些位置编码?有何不同?
- 训练好的位置编码长度如何外推?