1. 摘要
商品检索是在线电商系统的基础,需要快速准确地找到用户所需的产品。其中,相关性是检索过程的一个重要考量因素,其作用是避免展现与用户搜索意图不匹配的产品,从而优化用户体验。在相关性任务场景中,用户的搜索词条是最能够清晰反映其意图的信息;同时,商品的标题文本作为展现的主要信息,也能够体现商品的本质内容。因此,通过比较两者间的语义匹配程度能够很好的评估和约束展现商品的相关性,即语义相关性学习。当前,该任务上仍存在着一些亟待解决的问题,包括电商领域严重的长尾数据分布、高质量语义监督信息的匮乏等。近期的相关研究试图通过引入场景中丰富的用户行为进行相关性学习。然而,用户行为中大量的噪声很容易导致语义建模不足。为了解决以上问题,本文首先提出了一个弱监督的对比学习框架,该框架能够提供有效的语义监督进行更好的数据表征学习。具体的,我们利用用户行为异构图中包含的拓扑结构信息来设计语义感知的数据构建策略,并设计了针对电商场景特征的数据增强方法与训练目标。此外,在后交叉计算阶段,我们提出了一种新的混合式方法,通过结合微调与迁移学习缓解了数据分布偏差造成的负面影响。大量的实验与分析表明,本文所提出的方法在语义相关性学习中具有显著的性能。基于该项工作整理的内容已发表在 CIKM 2022,欢迎阅读交流。
论 文:Graph-based Weakly Supervised Framework for Semantic Relevance Learning in E-commerce
下 载(点击↓阅读原文):https://dl.acm.org/doi/10.1145/3511808.3557143
2. 背景
文本表示学习是自然语言处理的一项基本任务,良好的语义表示能力对许多下游任务有益,如语义相似性匹配和信息检索。电商检索是该技术的主要应用场景之一,它旨在根据用户的搜索词条提取候选商品。语义相关性匹配通过计算用户搜索词条与商品文本信息之间的关联程度为候选商品检索提供了基础,能够有效减少不愉快的用户体验并保障用户对电商平台长期的满意度。
与传统的文本匹配任务不同,语义相关性学习需要建模不同数据分布间的联系。举例来说,用户的检索词条往往比较简短,并具有清晰的语义,如“黑色连衣裙”。而商品标题通常很长、语义成分复杂、并且包含一些噪声,如“2022年新款法式别致赫本风小众黑色西装长袖连衣裙子女秋冬季”。直接建模两者之间的匹配关系可能会使模型无法完全理解语义,而只能通过简单的文字重叠率进行判断。并且,用户检索词条与商品标题的人工标注数据成本高昂,无法大规模使用。近期的工作试图利用用户行为(点击、购买等)作为弱监督信息来解决标注匮乏的问题。然而,根据分析,我们发现用户行为是多种复杂因素的综合表现,其中包含了大量语义噪声。综上,为了优化语义相关性,我们提出了一种训练框架。首先基于用户行为图上拓扑结构挖掘语义信息,并设