还是论文题目太长打不下了,最后的VE是visual embedding
网络简称RLSV,分为两个模块
1.视觉特征提取模块
一幅图像经过ResNet50提取全局特征,再从全局特征切割出物体特征,但是因为投影后的尺度不同,使用双线性插值把较小的局部特征放大,让两个物体的局部特征大小相同,即得到vh和vt
然后网络分为两支:
上面一支:vh和vt各自经过两次卷积,得到vph和vpt
下面一支:vh和vt拼接,经过一层卷积,再加入union box的空间特征,cat,再经过一层卷积,得到vpr
2.分层投影模块
到这里,参与计算的视觉嵌入特征vph,vpt,vpr和结构嵌入特征h,t,r都已经得到了。(这个结构嵌入特征论文里没有详细讲,我猜测是hp,tp,rp即投影特征)
(1)属性空间
计算Mah和Mat:加权和,e={h,p}
为什么用加权?一个实体可能有多个属性,就有多个属性矩阵,需要把这些矩阵融合起来
aip是属性空间A中的某个属性ai的投影特征,这里的ep我觉得应该是主语或者宾语的投影特征,即hp或tp
βi计算:wb,Wv,Wa都是可学习参数,这里的vpe是视觉嵌入特征,用到了注意力机制,融合了视觉嵌入特征和主语(或者宾语)的投影特征
(2)关系空间:作者认为谓语是多对多的,所以还需要从属性空间映射到关系空间
计算Mrh和Mrt
rp是关系投影特征,融合了视觉特征和谓语的投影特征
(3)视觉空间:对于某一三元组,作者认为它对于所有的SG并不总是成立的,例如person-stand on-ground,对于这个图像是成立的,但对于另一张图可能就变成了run/jump之类的谓语。所以需要再从关系空间映射到视觉空间。
计算Mvh,Mvt,Mvr
(4)最终得到的嵌入特征:
(5)评分函数和损失函数
希望正样本分数越高越好,负样本分数越低越好,我的理解是h⊥和t⊥拉得越开越好,大概是为了聚类(?)
----------------------------一些碎碎念--------------------------
总结的异常费劲。
那个structural embedding实在解释不出来了,我的猜测也不一定对的。
这篇论文有代码,等我看完代码应该就知道这是个啥了(待填坑+1)