MFA结构图
原文:
我们使用 1 × 1 卷积处理输入,以便在 MFA 模块中进行学习。在卷积操作之后,得到三个数据流:xr1、x 和 xr2。对于 xr1 流,我们将 x 重塑为 (b, h, c, w) 和 xr1 到 (b, h, w, c)。然后,我们在它们之间执行矩阵乘法,将 x 投影到 xr1 的空间。这导致图像和旋转图像的融合表示,然后使用实例归一化 (IN) [2] 进行归一化。融合表示被重新整形为 (b, h, c, c)。接下来,我们通过将这种融合表示与另一个 (b, h, c, w) 矩阵相乘,将其投影回 x 的空间。结果表示再次归一化和调整大小。最后,我们将 xr1 投影回 x。基于图2,投影xr1p在数学上可以表示如下:
MFA模块中的1×1卷积和特征融合过程
1. 开始之前:理解MFA模块
MFA模块的目的是将图片的不同特征整合到一起,以便更好地理解和分析图片。在上传的图片中,MFA模块可能被表示为一个包含多个步骤的流程图。
2. 输入处理:1×1卷积
在MFA模块的开始,我们使用1×1卷积来处理输入图片。1×1卷积是一种数学操作,它允许我们在不改变图片尺寸的情况下,重新组合图片的像素信息。
图片位置:
在MFA架构.png
图片中,1×1卷积被表示为一个标有CONV 1x1
的框。
3. 数据流分离:xr1、x 和 xr2
经过1×1卷积后,我们得到了三个数据流:xr1、x 和 xr2。这些数据流代表了图片的不同方面,它们将被分别处理。
图片位置:
在流程图中,你可以看到三个箭头或管道,分别从1×1卷积的输出指向不同的处理步骤,代表xr1、x 和 xr2。
4. 重塑数据:为矩阵乘法做准备
对于xr1数据流,我们将x的数据重塑为(b, h, c, w)的形状,同时将xr1重塑为(b, h, w, c),这样我们可以从不同的角度来观察它。这种重塑就像是把图片像素重新排列,以便于进行下一步的矩阵乘法。
图片位置:
在流程图中,重塑可能被表示为一个带有相应维度标记的转换步骤。
5. 矩阵乘法:特征融合
接下来,我们执行矩阵乘法,将x投影到xr1的空间。这就像是把两张图片的特征混合在一起,形成一个融合的特征表示。
图片位置:
在流程图中,矩阵乘法可能被表示为两个数据流之间的一个操作符,如×
。
6. 实例归一化(IN):平衡特征
融合后的特征表示通过实例归一化(IN)进行处理,以确保特征的平衡性和稳定性。
图片位置:
实例归一化在流程图中可能被标记为IN
或“Instance norm”。
7. 特征重投影:回到原始空间
然后,我们将融合后的特征表示重新投影回x的空间,并通过另一次归一化和大小调整来优化特征。
图片位置:
重投影可能被表示为一个带有箭头的步骤,指向标有x
的流程部分。
8. 结果:特征增强的图片
最终,xr1的特征被成功投影回x,我们得到了一个特征更加丰富的图片。
图片位置:
最终结果可能在流程图的末端表示,可能标有“输出”或类似的标记。