多模态知识图谱论文阅读笔记（二）AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce

不倒zk

于 2022-03-31 15:43:42 发布

阅读量2.2k

点赞数 1

分类专栏：笔记文章标签：知识图谱人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csdnzzkk/article/details/123873131

版权

笔记专栏收录该内容

5 篇文章

订阅专栏

AliMe MKG: A Multi-modal Knowledge Graph for Live-streaming E-commerce

       这是阿里淘宝电商的一个多模态知识图谱，他没有上一篇文章Richpedia那样复杂，只是在原来的图谱基础上增加了图片，只有Richpedia中的第一种三元组（文本，hasimage，图片）。他没有图片文本之间复杂的关系，没有图片与图片之间复杂的关系。（个人认为就是一个图文匹配任务，选择合适的模型就好）
       首先要明确，AliMe构建图片多模态图谱的目的不是构建过程本身，而在于应用，这是跟Richpedia区别最大的地方之一，论文末尾介绍了阿里将他作为直播助手、问答系统等一系列应用。所以如果想要图谱落地，可以借鉴这种方法，如果是想从多模态图谱的构建入手，这篇论文就过于简单（当然本身这文章就写的很简单）。
在这里插入图片描述                              图片来自论文       本体

根据论文的阐述，图谱中的图片都是从商品页面获取到的，每张图片会对应一些文本描述，这些描述应该是来自知识图普里的实体节点或者跟某些实体有关的描述，分别对图片和句子去编码，作者比较了Pixel-BERT、CMM_RESnet等模型效果（写的很简单），选择了比较好的一些方法来处理图片和文本，最后聚合信息进行匹配。
在这里插入图片描述图片来自论文

感觉很多东西都没有仔细说，下边的图是文章给出的一个图谱的子图，根据他的子图和匹配方案那来看，应该是在使用图谱的过程中会推理生成一系列描述然后顺带给出相应图片。
在这里插入图片描述
图片来自论文

总结

多模态知识图谱构建中的多模态知识融合或者说多模态语义对其可以看作是跨模态匹配（或检索），比如图文匹配（或检索），视频文本匹配（或检索）。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。