- 博客(4)
- 收藏
- 关注
原创 李沐课程学习笔记
数据并行是最简单高效的多卡策略,训练速度接近线性加速比(通信开销小时)。MLM是真正的双向建模,而GPT是单向(自回归)建模,因此在语言理解任务(分类、问答)上BERT强于GPT。RoBERTa用更简单的思路(更大数据、更多计算)在效果上接近或超越XLNet,说明数据规模和数据质量往往是更关键的瓶颈。· ZeRO优化:DeepSpeed的ZeRO(Zero Redundancy Optimizer)将模型状态(参数、梯度、优化器状态)分片到多GPU,大幅降低显存占用,可训练超大规模模型。
2026-04-10 17:01:43
171
原创 李沐课程学习笔记
Adam结合动量(加速收敛)和RMSProp(自适应学习率),几乎适用于任何模型,收敛快且对学习率不敏感。分母\sqrt{d}的缩放原因是:当维度d较大时,点积值方差变大,softmax梯度趋于极小,除以\sqrt{d}可稳定梯度。使用正弦/余弦函数: PE_{(pos,2i)} = \sin(pos/10000^{2i/d}) , PE_{(pos,2i+1)} = \cos(pos/10000^{2i/d}) ,使任意两个相距k个时间步的位置编码内积相同,蕴含相对位置信息。
2026-04-03 12:50:23
178
原创 李沐课程学习笔记
公式: \mathbf{H}_t = \tanh(\mathbf{X}_t \mathbf{W}_{xh} + \mathbf{H}_{t-1} \mathbf{W}_{hh} + \mathbf{b}_h);· 隐藏状态拼接: \mathbf{H}_t = [\overrightarrow{\mathbf{H}}_t, \overleftarrow{\mathbf{H}}_t] ,输出维度为 2 \times \text{hidden\_size}。更新门为1时,完全保留旧状态,跳过当前输入。
2026-03-27 13:07:51
227
原创 李沐课程学习笔记
本文整理了李沐《动手学深度学习v2》课程第26讲至第41讲的学习笔记,涵盖循环神经网络系列(RNN、GRU、LSTM、双向RNN、深度RNN)、序列到序列模型(机器翻译、编码器-解码器架构、束搜索)、注意力机制与Transformer,以及优化算法(动量法、AdaGrad、RMSProp、Adam、学习率调度),系统构建了从序列建模到现代深度学习核心技术的知识体系。
2026-03-19 12:58:06
270
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅