- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 软考复盘(2025年11月)
1. 王建平讲座(这个比较老, 应该是23年的)相关书籍: 《系统架构设计师 备考一本通》2. IT老齐(可以参考最近几年的架构实时方案, 论文)
2025-12-15 11:37:24
639
原创 LLM模型
本文系统梳理了神经网络与大语言模型的核心技术要点。首先介绍了神经网络基础概念,包括激活函数(ReLU)、损失函数(MSE)及过拟合解决方案(Dropout、L1/L2正则)。随后深入探讨了Transformer架构的关键组件:自注意力机制(QKV矩阵)、多头注意力、位置编码(RoPE)和前馈网络(FFN)。针对大模型训练优化,分析了FlashAttention的内存效率改进、MOE架构的专家负载均衡策略,以及优化器选择(AdamW为主)。文章还对比了主流大模型架构特点(如LLaMA3的GQA、DeepSee
2025-11-30 21:48:35
934
原创 2025年LLM模型综述(25/11/23)
RoPE对长上下文的改进方式:直接训:加个缩放系数切分input单元角度切小点, 使max_length -> wavelength还有一个(没看懂跟上一个有什么不同)适应性contextwindow:并行context窗口强调中间信息的窗口(模型倾向于看input两头, 遗忘中间)选一些token。
2025-11-25 20:01:27
725
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅