2301_79220570-CSDN博客

原创图解batchnorm，layernorm以及RMSnorm

本文系统分析了三种神经网络归一化方法：BatchNorm基于通道独立原则，跨样本聚合数据计算均值方差，适用于大batch场景；LayerNorm转向样本内独立归一化，解决了变长序列padding污染问题，适合NLP和ViT任务；RMSNorm作为LayerNorm的高效变体，通过舍弃去中心化操作提升计算效率，广泛应用于大语言模型。三种方法各具特点，需根据任务特性选择合适方案。

2026-03-11 10:21:08 369

原创详解RoPE旋转位置编码为什么能够显式编码相对位置

旋转位置编码（Rotary Positional Embedding, RoPE）的设计初衷是寻找一种映射，使得 Query 和 Key 向量在注入位置信息后，它们的能够自然地反映出两者的。与传统的绝对位置编码相比，RoPE 巧妙地利用了旋转的性质，将位置信息编码为特征向量的旋转角，且通过乘法保证了在进行query和key向量相乘的过程中能够显示编码两个token的位置差信息。

2026-03-10 22:49:28 358

随机或使用 k-means++ 策略选取 $k$ 个初始点作为聚类中心 $C = \{c_1, c_2, ..., c_k\}$。$\eta$ - 学习率。随该中心点历史累积处理样本数 $n$ 的增加，按 $1/n$ 自动衰减。：二次遍历全量输入样本，计算每个样本到上述固化中心的距离，输出距离最小的中心索引（即类别标签）。：对 Batch 中的每一个样本 $x$，寻找距离其最近的聚类中心 $c_{old}$。：从全量样本中随机无放回抽取 $b$ 个样本构成一个 Mini-Batch $M$。

2026-03-05 08:42:17 40

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

2301_79220570的博客

原创图解batchnorm，layernorm以及RMSnorm

原创详解RoPE旋转位置编码为什么能够显式编码相对位置

原创解析MiniBatchKMeans

空空如也

空空如也

原创 图解batchnorm，layernorm以及RMSnorm

原创 详解RoPE旋转位置编码为什么能够显式编码相对位置

原创 解析MiniBatchKMeans

空空如也

空空如也

原创图解batchnorm，layernorm以及RMSnorm

原创详解RoPE旋转位置编码为什么能够显式编码相对位置

原创解析MiniBatchKMeans