自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 图解batchnorm,layernorm以及RMSnorm

本文系统分析了三种神经网络归一化方法:BatchNorm基于通道独立原则,跨样本聚合数据计算均值方差,适用于大batch场景;LayerNorm转向样本内独立归一化,解决了变长序列padding污染问题,适合NLP和ViT任务;RMSNorm作为LayerNorm的高效变体,通过舍弃去中心化操作提升计算效率,广泛应用于大语言模型。三种方法各具特点,需根据任务特性选择合适方案。

2026-03-11 10:21:08 369

原创 详解RoPE旋转位置编码为什么能够显式编码相对位置

旋转位置编码(Rotary Positional Embedding, RoPE)的设计初衷是寻找一种映射,使得 Query 和 Key 向量在注入位置信息后,它们的能够自然地反映出两者的。与传统的绝对位置编码相比,RoPE 巧妙地利用了旋转的性质,将位置信息编码为特征向量的旋转角,且通过乘法保证了在进行query和key向量相乘的过程中能够显示编码两个token的位置差信息。

2026-03-10 22:49:28 358

原创 解析MiniBatchKMeans

随机或使用 k-means++ 策略选取 $k$ 个初始点作为聚类中心 $C = \{c_1, c_2, ..., c_k\}$。$\eta$ - 学习率。随该中心点历史累积处理样本数 $n$ 的增加,按 $1/n$ 自动衰减。:二次遍历全量输入样本,计算每个样本到上述固化中心的距离,输出距离最小的中心索引(即类别标签)。:对 Batch 中的每一个样本 $x$,寻找距离其最近的聚类中心 $c_{old}$。:从全量样本中随机无放回抽取 $b$ 个样本构成一个 Mini-Batch $M$。

2026-03-05 08:42:17 40

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除