- Based on Attention and GNN
总结
- match匹配两组local特征点寻找匹配&拒绝不可匹配点
- 求解可微optimal transport问题来解分配问题
- 用图网络来预测optimal transport 的cost
Formulation
- 关键点和描述子组成一个local feature (p,d)
- feature集合定义一张image
- 预测两张图的匹配矩阵
网络结构
- attentional GNN
- optimal matching layer
Attentional GNN
把特征点位置和描述编码成一个问量,通过attention层创建更有表示能力的描述子
关键点编码
位置embed到高维,类似NLP中的位置编码
把描述子和位置编码直接加在一起的特征点信息编码x=d+MLP§,而不是向量连接
Multiplex GNN
两类edge,一个image内的和两个image之间的
用message passing formulation来在这两类edge上传递信息
图网络的输入层node有高维的feature状态(上文说的特征点信息编码x)
图网络的每一层,都会聚合所有edge来的信息,更新每个node的representation
聚合方式为 x=x+MLP(x || m)
Attentional聚合
信息m =
∑
\sum
∑(
α
v
\alpha v
αv),其中a是key-query相似度的softmax(q k)
Key, query. Value都是图神经网络中deep feature的线性投影
q = Wx+b
[k v] = [W1 W2] x + [b1 b2]
注意到W和b对所有keypoints都是一样的。但会考虑multi-head attention
注意一开始x中就编码了key point位置和描述子(appearance )所以信息的传递索引也都考虑了两者
最终的matching descriptor是最后一层feature的线性投影
f = W x + b
Optimal matching layer
创建一个score矩阵并用dustbin扩增,用sinkhorn算法选代找到最优的partial assignment
Score Prediction
定pairwise score为matching descriptor的相似性
S = <f, f>. 注意S是一个矩阵
注意到,原始的描述子是normalize过的,而matching descriptor没有normalize
Occlusion and Visibility
通过扩增Dustin的方式允许不近配的点
Sinkhorn算法
上述优化问题的解是optimal transport between离散分布a和b with score S
- 要看下匹配问题
Loss
设计上,GNN和optimal matching layer都是可微的,可以从 match backpropagate回visual descriptor
通过有监督的方式,有直值匹配和不匹配点
最小化assignment p 的negative log-likelihood
Loss = -
∑
\sum
∑log P匹配 -
∑
\sum
∑log P不匹配
- 要看下loss设计思路
Comparison to related work
Todo.实验