信息有多种表现形式,例如文字与图片。 如何找到一种模态对应的其他模态的数据?这就是跨模态检索问题。 有论文提出使用场景图来解决这个问题: Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval