Learning Visual Commonsense for Robust Scene Graph Generation论文笔记
原论文地址:https://link.springer.com/content/pdf/10.1007/978-3-030-58592-1_38.pdf总体结构: 感知模型,它采用输入图像I并生成感知驱动的场景图 GP 常识模型,它以 G P 作为输入,并产生一个常识驱动的场景图 G C 感知模型GLAT:输入G_p,带有masked node。经过一个Global-Local多头注意力机制,具体实现: G=(Ne,Np,Es,...
原创
2021-07-24 16:15:49 ·
1011 阅读 ·
2 评论