大模型论文
文章平均质量分 87
大模型,如Transformer文章阅读与复现
pig不会cv
这个作者很懒,什么都没留下…
展开
-
3.SwinT
其实Swin Transformer就是把VIT里面的多头自注意模块改成W-MSA或者SW-MSA(W-MSA和SW-MSA分别是具有规则和移位窗口配置的多头自注意模块。是因为Winograd变换的引入已经将卷积操作的计算复杂度降低到了矩阵乘法的级别,而不再依赖于卷积核的大小。输入要复制三份,变成q,k,v:相当于把hxwxC的向量乘CxC的系数矩阵,得到3个hxwxC的qkv。将窗口进行移位,得到右下角的窗口。对于hxw的张量,每个窗口大小为MxM,共有 h/M x w/M 个窗口。原创 2023-10-30 16:40:28 · 85 阅读 · 0 评论 -
2.VIT
看了43分钟。把一个图片分成很多patch,每个patch是16x16,最后Trans的输入序列长度就是14x14=196(假设输入图像为224x224)可以把一个一个patch视作NLP里面的一个一个word因为,CNN拥有归纳偏置,有很多先验信息(可以理解成一些合理的假设):1.locality:卷积时,图片上相邻的区域(相邻的像素点)会有相邻的特征,比如桌子和椅子大概率会在一起,靠的越近的东西,相关性越强。原创 2023-10-18 15:15:10 · 189 阅读 · 0 评论 -
1.Transformer:Attention Is All You Need
(看了一个小时,后面的positional embedding没看)原创 2023-10-17 22:19:08 · 37 阅读 · 0 评论