Item Tagging for Information Retrieval: A Tripartite Graph Neural Network based Approach 用于信息检索的项目标签

文章目录摘要简介Tagging 方法动机和总览动机总览TagGNN-IT节点表示TagGNN-IT Propagation损失2.3 TagGNN-QI2.3.1 边表示2.3.2 TagGNN-QI Propagation2.3.3 损失2.4 TagGNN2.5 Training and Inference2.5.1 Training2.5.2 Inference3 实验3.1 数据集3.2 Experimental Setup3.3 基准3.4 Performance Comparison (Q
摘要由CSDN通过智能技术生成

论文题目:Item Tagging for Information Retrieval: A Tripartite Graph Neural Network based Approach 用于信息检索的项目标签:一种基于三方图神经网络的方法
作者:来自 华为诺亚方舟实验室

时间:2020

论文链接:https://doi.org/10.1145/3397271.3401438
Github链接:无

摘要

标记被认为是提高信息检索(IR)中相关匹配的成功的实践,特别是在item缺少丰富的文字描述的情况下。对于多标签文本分类或图像注释,已经有了大量研究。但是,缺少针对IR的项目标记的发表文章。由于不了解IR中独特的特性,直接将传统的多标签分类模型应用于项目标记并不理想。在这项工作中,我们建议将项目标记公式化为项目节点和标签节点之间的链接预测问题。为了丰富项目的表达,我们利用IR任务中的查询日志来构建一个查询-项目-标签三方图。与先前的研究不同,我们还通过一次双损失机制在统一框架中优化了完整标签预测和部分标签完成案例。

简介

信息检索(IR)是一个完善的研究领域,可以满足我们日常信息需求,例如Web搜索,App搜索,电子产品搜索,图像检索,音乐查找等。尽管文献中对基于文本的Web搜索进行了广泛的研究,但垂直领域的IR仍面临一些独特的挑战。与主要处理全文文档的Web搜索不同,其他一些领域中的项目文本说明不够丰富或简洁,无法传达其语义信息。为了说明此,我们以app搜索为例子。图1展示了Google play上的一个app样本,它包含了多种也行的信息,包括app沐橙,类别,研发者,屏幕快捷图片,和一个简短的描述。但是,描述只包含了更新信息。这样简短而嘈杂的项目说明增加了检索相关项目的难度。
在这种情况下,标记在帮助描述和丰富项目语义方面起着至关重要的作用。标签通常被描述为关键字,以描述诸如类别,功能,样式,相关实体,目标受众等项的关键信息。标记已被认为是提高检索性能的成功做法,尤其是对于缺少简洁文字说明的项目【20】例如,图1中的应用程序项具有一组标签,包括“游戏”,“ AR”(增强现实),“皮卡丘”等。当用户搜索查询“皮卡丘”时,这些标签使检索应用程序更加容易 游戏”或“ AR游戏”,但这不能仅通过文字描述来完成。标签的集合不仅可以增强相关性匹配,还可以用于查询重新制定和项目推荐【14】此外,显示标签和可单击的超链接及其关联项目可以帮助用户导航和浏览感兴趣的项目集合。
对于许多工业IR应用,项目标记是更好地进行项目组织和检索的关键要素。对于用户生成的内容,用户自己为其帖子提供标签(例如,Twitter中的tweet主题标签,Stack Overflow中的问题标签)。相反,对于平台生成的内容(即项目),例如应用程序,广告和新闻,标签及其与搜索的集成可能对用户不可见。项目标签已成为运营团队的一项常规任务[1]。 但是,手动标记非常耗时处理,如果项目语料库过大,可能会导致难以管理的工作。为了代替或补充手动标记过程,已经对自动物品标记进行了大量研究。 典型示例包括应用程序标记[3],新闻标记[21、23],博客帖子标记[17、27],问题标记[22、28],图像注释[4、35]。用于项目标记的潜在方法可以大致分为两种类型:关键词提取[8]和多标签分类[32]。关键短语提取方法(例如TF-IDF [19],Tex tRank [18],PositionRank [5])已广泛用于文本文档或网站,以从原始内容中识别最能描述文档主题的关键字 。这些方法主要遵循两个阶段的过程(即候选者提取→排名)。它们适用于长文档,但不适用于没有详细文字说明的项目,因为标签可能不会出现在项目说明中。这样,项目标签通常被表述为多标签分类问题[32],也就是说,将预定义项目集合中的相关标签分配给项目。 多标签分类模型已在文献中得到广泛研究,其中许多已成功应用于文本分类[2,15,25]。 但是,直接将传统的多标签分类模型应用于项目标签是次优的,尤其是在信息检索任务中。
在这项工作中,受图神经网络(GNN)最近成功的启发[29],我们提出将项目标签转换为项目节点和标签节点之间的链接预测问题,并提出基于GNN的项目标签模型(即 TagGNN)。 与以前的研究相比,我们的工作旨在解决以下限制:
1、大多数传统的多标签分类模型无法完全利用标签(即标签)之间的相关性。 相反,我们的公式支持通过节点表示来嵌入标签,从而更好地捕获相似标签之间的相关性。 由于语义相似的信息可以通过消息传递从邻居节点聚合,因此它也丰富了项目和标签节点的表示。 直观地,项目和标签不仅通过自身进行匹配,而且通过邻居项目和邻居标签进行匹配。
2、项目描述通常简短而嘈杂,因此很难从文本描述中提取语义信息以进行分类。 为了缓解此问题,我们建议不仅利用文本描述,而且还利用可用的查询日志来丰富项目的表示形式。 我们构建一个query-item-tag的三方图,其中query-item边缘指示查询日志中的交互(例如,点击或下载),而item-tag边缘则表示注释关系。 该三方图对于IR来说是唯一的,并导致具有多种类型的节点和边的异构GNN建模。 我们的TagGNN模型自然融合了商品标签(w.r.t. TagGNN-IT)和查询物品(w.r.t. TagGNN-QI)图。
3、实际上,某些新项目没有现有标签,需要进行完整标签预测。 一些旧项目具有部分不完整的标签(例如,手动标记),这些标签仅需要完成和完善标签。 IR任务中都需要这两种情况。 尽管现有工作集中在一个[15]或另一个[34]上,但我们在统一框架中优化了这两种情况。 为了实现这一目标,我们在训练过程中同时加入了主要损失和双重损失,以避免训练测试暴露偏差。
我们还强调,尽管存在一些利用GNN进行文本分类的工作[9,10,30],但我们还没有发现任何有关基于GNN的项目标记的已发表工作,这些工作被表述为链接预测问题。为了评估我们的TagGNN方法的有效性,我们对两个大型数据集进行了全面的实验,其中包括用于赞助产品搜索的开放广告标签数据集(KDDCup-2012)和用于应用搜索的私有工业应用标签数据集(Huawei-Dataset)。实验结果表明,我们的TagGNN方法在“不带标签”和“部分标签”设置下,在9种基线模型上均实现了精度的一致提高。 还进行了消融研究参数分析,以验证我们的模型设计选择。
总而言之,我们的工作有以下主要贡献:

  1. 我们的工作将项目标签公式化为查询项目标签图上的链接预测问题,并提出了一种独特的基于三方图神经网络的方法。
  2. 我们的目标是完整标签预测和部分标签完成,并提出了一次双重损失以在统一学习框架中优化两种情况。
  3. 我们的实验结果表明,与基于文本的竞争方法和基于图形的竞争方法相比,它们均取得了显着改进。
    本文的其余部分安排如下。 第二节
    描述了我们的TagGNN方法。 第三部分报告了实验结果。 我们在第4节中回顾了相关工作,最后在第5节中总结了本文。

Tagging 方法

在本节中,我们首先介绍模型设计的动机,并概述TagGNN。 然后,我们描述模型的细节,包括三个部分:TagGNN-ITTagGNN QI及其集成TagGNN。 最后,我们展示了用于标签预测的训练和推理策略

动机和总览

动机

如今,将GNN应用于增强文本分类任务的趋势[9,10,30]。 受这些研究的启发,我们探索了将GNN用于IR中的项目标记的方法。 与文本分类不同,我们的工作旨在解决以下独特的挑战。
首先,物品标签问题通常具有较大的标签空间(超过数千个)。 期望捕获标签之间的丰富语义关系。 以图1为例,Pokemon具有两个高度相关的标

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值