多模态知识图谱论文阅读笔记(二)AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce

AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce

       这是阿里淘宝电商的一个多模态知识图谱,他没有上一篇文章Richpedia那样复杂,只是在原来的图谱基础上增加了图片,只有Richpedia中的第一种三元组(文本,hasimage,图片)。他没有图片文本之间复杂的关系,没有图片与图片之间复杂的关系。(个人认为就是一个图文匹配任务,选择合适的模型就好)
       首先要明确,AliMe构建图片多模态图谱的目的不是构建过程本身,而在于应用,这是跟Richpedia区别最大的地方之一,论文末尾介绍了阿里将他作为直播助手、问答系统等一系列应用。所以如果想要图谱落地,可以借鉴这种方法,如果是想从多模态图谱的构建入手,这篇论文就过于简单(当然本身这文章就写的很简单)。
在这里插入图片描述                             图片来自论文       本体

       根据论文的阐述,图谱中的图片都是从商品页面获取到的,每张图片会对应一些文本描述,这些描述应该是来自知识图普里的实体节点或者跟某些实体有关的描述,分别对图片和句子去编码,作者比较了Pixel-BERT、CMM_RESnet等模型效果(写的很简单),选择了比较好的一些方法来处理图片和文本,最后聚合信息进行匹配。
在这里插入图片描述                                图片来自论文

      感觉很多东西都没有仔细说,下边的图是文章给出的一个图谱的子图,根据他的子图和匹配方案那来看,应该是在使用图谱的过程中会推理生成一系列描述然后顺带给出相应图片。
在这里插入图片描述
                               图片来自论文

总结

      多模态知识图谱构建中的多模态知识融合或者说多模态语义对其可以看作是跨模态匹配(或检索),比如图文匹配(或检索),视频文本匹配(或检索)。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AF(Association Fusion)是一种基于关联的多模态分类方法。多模态分类是指利用多种不同类型的数据(如图像、文本、音频等)进行分类任务。传统的多模态分类方法通常是将不同类型的数据分别提取特征,然后将这些特征进行融合得到最终结果。AF方法则是通过建立数据之间的关联来实现融合。 具体而言,AF方法首先将每个模态的数据进行特征提取,得到对应的特征向量。然后通过计算每个模态之间的相关度来建立模态之间的关联。这个相关度可以通过不同的方法来计算,例如互信息、皮尔逊相关系数等。 接下来,AF方法通过关联度来调整每个模态的权重。具体来说,权重与关联度成正比,关联度越高的模态将获得更大的权重。这样一来,每个模态的重要程度就会根据数据之间的关联度动态调整。 最后,AF方法通过将每个模态的特征与对应的权重进行加权融合,得到最终的特征向量。这个特征向量可以用于进行分类任务。 与传统的融合方法相比,AF方法能够更准确地捕捉到不同模态数据之间的关联信息。这样一来,融合后的特征向量能够更好地反映整个多模态数据的特征,提高分类准确率。 综上所述,AF是一种基于关联的多模态分类融合方法,通过建立数据之间的关联来动态调整每个模态的权重,从而提高多模态分类的准确率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值