AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce
这是阿里淘宝电商的一个多模态知识图谱,他没有上一篇文章Richpedia那样复杂,只是在原来的图谱基础上增加了图片,只有Richpedia中的第一种三元组(文本,hasimage,图片)。他没有图片文本之间复杂的关系,没有图片与图片之间复杂的关系。(个人认为就是一个图文匹配任务,选择合适的模型就好)
首先要明确,AliMe构建图片多模态图谱的目的不是构建过程本身,而在于应用,这是跟Richpedia区别最大的地方之一,论文末尾介绍了阿里将他作为直播助手、问答系统等一系列应用。所以如果想要图谱落地,可以借鉴这种方法,如果是想从多模态图谱的构建入手,这篇论文就过于简单(当然本身这文章就写的很简单)。
图片来自论文 本体
根据论文的阐述,图谱中的图片都是从商品页面获取到的,每张图片会对应一些文本描述,这些描述应该是来自知识图普里的实体节点或者跟某些实体有关的描述,分别对图片和句子去编码,作者比较了Pixel-BERT、CMM_RESnet等模型效果(写的很简单),选择了比较好的一些方法来处理图片和文本,最后聚合信息进行匹配。
图片来自论文
感觉很多东西都没有仔细说,下边的图是文章给出的一个图谱的子图,根据他的子图和匹配方案那来看,应该是在使用图谱的过程中会推理生成一系列描述然后顺带给出相应图片。
图片来自论文
总结
多模态知识图谱构建中的多模态知识融合或者说多模态语义对其可以看作是跨模态匹配(或检索),比如图文匹配(或检索),视频文本匹配(或检索)。