- 博客(9)
- 收藏
- 关注
原创 swin-transformer架构解析和源码解析
swin-transformer和vit-transformer的区别是它采用了多个窗口收集信息然后进行注意力机制,然后在通过移动窗口结合信息。Patch Partition的主要目的是将原来的大模块分成小补丁,这点和VIT类似,下面是swin模块和其中掩码的讲解。模块讲解完毕,MLP在代码解析中讲解,代码太长了(600多行)我就没有像以前一样逐行讲解。swin-transformer结构。Patch Merging讲解。位置索引(bias)讲解。
2025-09-29 21:38:19
863
原创 Transformer Encoder论文复现和代码解析
将一个X复制成3份,进行线性变化形成Q,K,V,将Q和K进行矩阵乘法计算相似度,相似度高的多关注相似度低的用mask掩码覆盖,我用图片和代码进行主要讲解,180行代码,160行注释,重难点用了很多行注释。公式,就是矩阵相乘,又控了下大小,防止sofemax转换概率时出问题。主要解释在代码解析中,我感觉我的解释详细到了极点,希望大家喜欢。打标签的,Positional Encoding。FFN公式,说白了,就是个MLP。
2025-09-24 19:32:02
491
原创 结合李沐的resnet(代码超详细解释),和阅读resnet原版论文谈谈我对resnet和批量归一化的理解(通俗易懂)
resnet诞生的原因是因为在进行深度神经网络训练的时候,在深处会出现梯度消失和梯度爆炸等问题,而且在实验中同时出现了随着网络加深精度反而下降等问题,我下面说一下,resnet原理和resnet怎么控制梯度。在resnet模块中有relu激活函数和归一化模块,同样可以处理梯度问题,我对激活函数和批量归一化的理解写进下面的代码注释当中了(他们出现第一次的地方),下面的图片讲解了他们如何处理梯度问题的。:超参数,控制每次参数更新的步长。接下来我将在我超详细的代码解释中进行具体的讲解(我写了小一天(笑))
2025-09-16 19:27:57
440
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅