整个网络架构挺简单的,一边是传统的ViT,另一边是CNN,创新点主要在于融合两者的特征图并做出预测,同时融合的信息还会回过头影响CNN的预测。最后把三种预测的结果求损失,并乘以一个超参数后相加,便得到了最终损失。
上面是核心部分涉及到的公式,ViT提取的特征图经过通道注意力处理,CNN提取的通过空间注意力处理,同时两者的原始特征图会先分别和两个矩阵相乘,再求点积。最终三个变量拼接在一起得到融合后的f。
整个网络架构挺简单的,一边是传统的ViT,另一边是CNN,创新点主要在于融合两者的特征图并做出预测,同时融合的信息还会回过头影响CNN的预测。最后把三种预测的结果求损失,并乘以一个超参数后相加,便得到了最终损失。
上面是核心部分涉及到的公式,ViT提取的特征图经过通道注意力处理,CNN提取的通过空间注意力处理,同时两者的原始特征图会先分别和两个矩阵相乘,再求点积。最终三个变量拼接在一起得到融合后的f。