- 博客(3)
- 收藏
- 关注
原创 图解batchnorm,layernorm以及RMSnorm
本文系统分析了三种神经网络归一化方法:BatchNorm基于通道独立原则,跨样本聚合数据计算均值方差,适用于大batch场景;LayerNorm转向样本内独立归一化,解决了变长序列padding污染问题,适合NLP和ViT任务;RMSNorm作为LayerNorm的高效变体,通过舍弃去中心化操作提升计算效率,广泛应用于大语言模型。三种方法各具特点,需根据任务特性选择合适方案。
2026-03-11 10:21:08
369
原创 详解RoPE旋转位置编码为什么能够显式编码相对位置
旋转位置编码(Rotary Positional Embedding, RoPE)的设计初衷是寻找一种映射,使得 Query 和 Key 向量在注入位置信息后,它们的能够自然地反映出两者的。与传统的绝对位置编码相比,RoPE 巧妙地利用了旋转的性质,将位置信息编码为特征向量的旋转角,且通过乘法保证了在进行query和key向量相乘的过程中能够显示编码两个token的位置差信息。
2026-03-10 22:49:28
358
原创 解析MiniBatchKMeans
随机或使用 k-means++ 策略选取 $k$ 个初始点作为聚类中心 $C = \{c_1, c_2, ..., c_k\}$。$\eta$ - 学习率。随该中心点历史累积处理样本数 $n$ 的增加,按 $1/n$ 自动衰减。:二次遍历全量输入样本,计算每个样本到上述固化中心的距离,输出距离最小的中心索引(即类别标签)。:对 Batch 中的每一个样本 $x$,寻找距离其最近的聚类中心 $c_{old}$。:从全量样本中随机无放回抽取 $b$ 个样本构成一个 Mini-Batch $M$。
2026-03-05 08:42:17
40
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅