不爱粥爱周-CSDN博客

原创李沐课程学习笔记

数据并行是最简单高效的多卡策略，训练速度接近线性加速比（通信开销小时）。MLM是真正的双向建模，而GPT是单向（自回归）建模，因此在语言理解任务（分类、问答）上BERT强于GPT。RoBERTa用更简单的思路（更大数据、更多计算）在效果上接近或超越XLNet，说明数据规模和数据质量往往是更关键的瓶颈。· ZeRO优化：DeepSpeed的ZeRO（Zero Redundancy Optimizer）将模型状态（参数、梯度、优化器状态）分片到多GPU，大幅降低显存占用，可训练超大规模模型。

2026-04-10 17:01:43 171

原创李沐课程学习笔记

Adam结合动量（加速收敛）和RMSProp（自适应学习率），几乎适用于任何模型，收敛快且对学习率不敏感。分母\sqrt{d}的缩放原因是：当维度d较大时，点积值方差变大，softmax梯度趋于极小，除以\sqrt{d}可稳定梯度。使用正弦/余弦函数： PE_{(pos,2i)} = \sin(pos/10000^{2i/d}) ， PE_{(pos,2i+1)} = \cos(pos/10000^{2i/d}) ，使任意两个相距k个时间步的位置编码内积相同，蕴含相对位置信息。

2026-04-03 12:50:23 178

原创李沐课程学习笔记

公式： \mathbf{H}_t = \tanh(\mathbf{X}_t \mathbf{W}_{xh} + \mathbf{H}_{t-1} \mathbf{W}_{hh} + \mathbf{b}_h)；· 隐藏状态拼接： \mathbf{H}_t = [\overrightarrow{\mathbf{H}}_t, \overleftarrow{\mathbf{H}}_t] ，输出维度为 2 \times \text{hidden\_size}。更新门为1时，完全保留旧状态，跳过当前输入。

2026-03-27 13:07:51 227

原创李沐课程学习笔记

本文整理了李沐《动手学深度学习v2》课程第26讲至第41讲的学习笔记，涵盖循环神经网络系列（RNN、GRU、LSTM、双向RNN、深度RNN）、序列到序列模型（机器翻译、编码器-解码器架构、束搜索）、注意力机制与Transformer，以及优化算法（动量法、AdaGrad、RMSProp、Adam、学习率调度），系统构建了从序列建模到现代深度学习核心技术的知识体系。

2026-03-19 12:58:06 270