目录
2. Group Query Attention (GQA) 机制
Attention:技术栈完善过程中经常会遇到一些杂七杂八的问题,然后线上搜集、筛选大量资料解决。本专栏用于转载一些比较有启发、质量比较好的大佬文章(已附链接),仅用于个人学习和回顾使用。如有侵、联系删。
1. 大模型之Scaling Law(幂律公式)
(1) https://zhuanlan.zhihu.com/p/667489780
(2)B站首发!解析大模型中的Scaling Law-卢菁博士授课-1.什么是幂律 2.为什么现在LLM 的大小为什都设计成6/7B、13B和130B几个档次?3_哔哩哔哩_bilibili
2. Group Query Attention (GQA) 机制
(1)Group Query Attention (GQA) 机制详解以及手动实现计算-CSDN博客