mvnmvn-CSDN博客

原创 Transformer

Positional Encoding位置编码，通常通过为每个位置生成一个唯一的向量，并将这个向量加到对应位置的词嵌入向量上，来实现。Transformer模型中使用的是一种固定的、基于正弦和余弦函数的编码方案，该方案允许模型捕获单词间的相对和绝对位置关系。每个编码器层由两个子层连接结构组成。第一个子层连接结构包括一个。和规范化层以及一个残差连接。第二个子层连接结构包括一个。和规范化层以及一个残差连接。和规范化层以及一个残差连接。和规范化层以及一个残差连接。和规范化层以及一个残差连接。

2024-06-03 19:25:42 244

原创 CBAM（Convolutional Block Attention Module）

图解：将输入的feature map经过两个并行的MaxPool层和AvgPool层，将特征图从C*H*W变为C*1*1的大小，然后经过Share MLP模块，在该模块中，它先将通道数压缩为原来的1/r（Reduction，减少率）倍，再扩张到原通道数，经过ReLU激活函数得到两个激活后的结果。该模块由通道注意力模块和空间注意力模块两部分组成，能够分别关注输入特征图的通道信息和空间信息，进而提升模型对于重要特征的关注度。）是轻量级的卷积注意力模块，它结合了通道和空间的注意力机制模块，，所以用了个多分支。

2024-05-13 19:16:08 353

原创 SENet

个类似于循环神经网络中门控机制，通过参数来为每个特征通道生成权重，参数被学习用来显式地建模特征通道间的相关性。：基于特征通道间的相关性，每个特征通道生成一个权重，用来代表特征通道的重要程度。个通道的特征，得到带有不同深浅程度的颜色的特征向量，也就是不同的重要程度。的特征向量，即将每个二维通道变成一个具有全局感受野的数值，此时。个通道，屏蔽掉空间上的分布信息，更好的利用通道间的相关性。上的值都乘上对应通道的权值，完成对原始特征的重校准。输出的权重看做每个特征通道的重要性，也就是对于。的特征图直接压缩成一个。

2024-05-13 19:11:51 165

原创 GoogLeNet(InceptionV3)

计算量：512×1×3×128×W×H+128×3×1×128×W×H+128×1×3×128×W×H+128×3×1×128×W×H=344064×W×H。参数量：512×1×3×128+128×3×1×128+128×1×3×128+128×3×1×128=344064。计算量：512×3×3×128×W×H+128×3×3×128×W×H=737280×W×H。参数量：512×3×3×128+128×3×3×128=737280。W×H是特征图尺寸，假设卷积层的输入输出特征图尺寸保持一致。

2024-04-18 20:20:44 423 1

原创 GoogLeNet(InceptionV1/V2)

【代码】GoogLeNet(InceptionV1/V2)

2024-04-18 20:17:18 185 1

原创 VGGNet

为了解决初始化（权重初始化）等问题，VGG采用的是一种Pre-training的方式，先训练浅层的的简单网络VGG11，再复用VGG11的权重初始化VGG13，如此反复训练并初始化VGG19，能够使训练时收敛的速度更快。VGGNet可以看成是加深版的AlexNet，把网络分成了5段，每段都把多个尺寸为3×3的卷积核串联在一起，每段卷积接一个尺寸2×2的最大池化层，最后面接3个全连接层和一个softmax层，所有隐层的激活单元都采用ReLU函数。使用多个小卷积核构成的卷积层代替较大的卷积层，两个。

2024-04-16 19:31:36 309

原创 DenseNet

当a=1时，特征个数经过Transition层没有变化，即无压缩，而当压缩系数a小于1时，这种结构称为DenseNet-C，一般使用a=0.5。，1×1卷积输出的通道数通常是GrowthRate的4倍。当几十个Bottleneck相连接时，concat后的通道数会增加到上千，如果不增加1×1的卷积来降维，后续3×3卷积所需的参数量会急剧增加。如果使用1×1卷积，第16个Bottleneck层参数量是1*1*544*128+3*3*128*32=106496，可以看到参数量大大降低。1、Dense 含义。

2024-04-15 19:26:39 582 1

原创 ResNet

我们可以转换为学习一个残差函数F(x) = H(x) - x. 只要F(x)=0，就构成了一个恒等映射H(x) = x. 此外，拟合残差会更加容易。作者通过实验说明：通过浅层网络y=x 等同映射构造深层模型，结果深层模型并没有比浅层网络有更低甚至等同的错误率，推断退化问题可能是因为深层的网络很那难通过训练利用多层网络拟合同等函数。二是y=f(x)+x式子中引入了恒等映射（当f(x)=0时，y=x），解决了深度增加时神经网络的退化问题。的准确率要高很多，解决了深层的退化问题。层残差网络，下采样使用的是。

2024-04-15 19:22:00 183

mvnmvn的专栏