欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/141462669
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。
LLaMA3 是 Meta 的最新大语言模型,在整体网络设计进行多项升级,显著提升了模型的性能和效率,重要的改进,如下:
- 词汇量增加至 128k 个。
- 使用 RMS Normalization,即 根均方正则化。
- 使用 旋转位置编码 RoPE。
- 使用 Grouped Query Attention,即 分组查询注意力,head 数量是 32,4组,即 8 个 KV he