论文阅读:Representation Learning for Scene Graph Completion via Jointly Structural and VE(IJCAI2018)

还是论文题目太长打不下了,最后的VE是visual embedding
在这里插入图片描述
网络简称RLSV,分为两个模块
1.视觉特征提取模块
一幅图像经过ResNet50提取全局特征,再从全局特征切割出物体特征,但是因为投影后的尺度不同,使用双线性插值把较小的局部特征放大,让两个物体的局部特征大小相同,即得到vh和vt

然后网络分为两支:
上面一支:vh和vt各自经过两次卷积,得到vph和vpt
下面一支:vh和vt拼接,经过一层卷积,再加入union box的空间特征,cat,再经过一层卷积,得到vpr

2.分层投影模块
到这里,参与计算的视觉嵌入特征vph,vpt,vpr和结构嵌入特征h,t,r都已经得到了。(这个结构嵌入特征论文里没有详细讲,我猜测是hp,tp,rp即投影特征)

(1)属性空间
计算Mah和Mat:加权和,e={h,p}
为什么用加权?一个实体可能有多个属性,就有多个属性矩阵,需要把这些矩阵融合起来
在这里插入图片描述

aip是属性空间A中的某个属性ai的投影特征,这里的ep我觉得应该是主语或者宾语的投影特征,即hp或tp
在这里插入图片描述

βi计算:wb,Wv,Wa都是可学习参数,这里的vpe是视觉嵌入特征,用到了注意力机制,融合了视觉嵌入特征和主语(或者宾语)的投影特征
在这里插入图片描述

(2)关系空间:作者认为谓语是多对多的,所以还需要从属性空间映射到关系空间
计算Mrh和Mrt
在这里插入图片描述
rp是关系投影特征,融合了视觉特征和谓语的投影特征

(3)视觉空间:对于某一三元组,作者认为它对于所有的SG并不总是成立的,例如person-stand on-ground,对于这个图像是成立的,但对于另一张图可能就变成了run/jump之类的谓语。所以需要再从关系空间映射到视觉空间。
计算Mvh,Mvt,Mvr
在这里插入图片描述
(4)最终得到的嵌入特征:
在这里插入图片描述
在这里插入图片描述
(5)评分函数和损失函数
在这里插入图片描述

希望正样本分数越高越好,负样本分数越低越好,我的理解是h⊥和t⊥拉得越开越好,大概是为了聚类(?)
在这里插入图片描述

----------------------------一些碎碎念--------------------------
总结的异常费劲。
那个structural embedding实在解释不出来了,我的猜测也不一定对的。
这篇论文有代码,等我看完代码应该就知道这是个啥了(待填坑+1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值