prerequisite :Positional encoding:词汇在句子中不同位置的编码,保证:距离相同时编码一直,适应不同长度句子,每个位置独一无二
方法 cos sin
Introduction 不同融合方法的可视化
Reweighting(压缩) correlation(压缩) attention 语义对标的注意力方法(多个尺度)
Problem definition Cbase和Cnovel不重叠,Dbase用于训练中的query和support而Dnovel仅提供测试中的support。因此是one-shot
Framework
VFM 同一个图像中的不同尺度特征 support和query使用的是孪生网络
HFM 将support和query中的进行cross attention和self attention操作。
Tips:Siamese network 衡量输入相似度,pseudo-Siamese network:两边使用到不共享参数的network 分别使用于:衡量两个签名相似度(Siamese)标题正文相关度(pseudo)
衍生 triplet network 三个中的两个同类尽可能近不同类尽可能远
HA:horizonal attention 其中使用了 PMA positional encoding 增强位置可变性
FFN 作用:attention主要是矩阵乘法线性运算,FFN是两个FC层进行非线性变换,LN(layer normalization)可以将数据移动到激活函数作用区域
VA:vertical attention 将上层的小特征上采样作为kv引导下层attention
Limitation
1、因为设计孪生只能做one-shot不能有多个support。如需改进则要使用特征提取和整合。2、需要设置小学习率且长时间等待收敛,0.001,普通的0.02会不稳定。