自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 李沐课程学习笔记

数据并行是最简单高效的多卡策略,训练速度接近线性加速比(通信开销小时)。MLM是真正的双向建模,而GPT是单向(自回归)建模,因此在语言理解任务(分类、问答)上BERT强于GPT。RoBERTa用更简单的思路(更大数据、更多计算)在效果上接近或超越XLNet,说明数据规模和数据质量往往是更关键的瓶颈。· ZeRO优化:DeepSpeed的ZeRO(Zero Redundancy Optimizer)将模型状态(参数、梯度、优化器状态)分片到多GPU,大幅降低显存占用,可训练超大规模模型。

2026-04-10 17:01:43 171

原创 李沐课程学习笔记

Adam结合动量(加速收敛)和RMSProp(自适应学习率),几乎适用于任何模型,收敛快且对学习率不敏感。分母\sqrt{d}的缩放原因是:当维度d较大时,点积值方差变大,softmax梯度趋于极小,除以\sqrt{d}可稳定梯度。使用正弦/余弦函数: PE_{(pos,2i)} = \sin(pos/10000^{2i/d}) , PE_{(pos,2i+1)} = \cos(pos/10000^{2i/d}) ,使任意两个相距k个时间步的位置编码内积相同,蕴含相对位置信息。

2026-04-03 12:50:23 178

原创 李沐课程学习笔记

公式: \mathbf{H}_t = \tanh(\mathbf{X}_t \mathbf{W}_{xh} + \mathbf{H}_{t-1} \mathbf{W}_{hh} + \mathbf{b}_h);· 隐藏状态拼接: \mathbf{H}_t = [\overrightarrow{\mathbf{H}}_t, \overleftarrow{\mathbf{H}}_t] ,输出维度为 2 \times \text{hidden\_size}。更新门为1时,完全保留旧状态,跳过当前输入。

2026-03-27 13:07:51 227

原创 李沐课程学习笔记

本文整理了李沐《动手学深度学习v2》课程第26讲至第41讲的学习笔记,涵盖循环神经网络系列(RNN、GRU、LSTM、双向RNN、深度RNN)、序列到序列模型(机器翻译、编码器-解码器架构、束搜索)、注意力机制与Transformer,以及优化算法(动量法、AdaGrad、RMSProp、Adam、学习率调度),系统构建了从序列建模到现代深度学习核心技术的知识体系。

2026-03-19 12:58:06 270

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除