近日,第29届国际计算机学会信息与知识管理大会(CIKM 2020)在线上召开,CIKM是CCF推荐的B类国际学术会议,是信息检索和数据挖掘领域顶级学术会议之一。
本届CIKM会议共收到920篇论文投稿,其中录用论文193篇,录取率约为21%。
而在众多论文当中,一篇BOSS直聘基于多视图协作学习的人岗匹配研究吸引了我们的注意力。
论文题目:《Learning to Match Jobs with Resumes from Sparse Interaction Data using Multi-View Co-Teaching Network》。
论文链接:https://arxiv.org/abs/2009.13299
本论文针对求职者和招聘方的交互行为数据稀疏且带有噪声这一场景,基于多视图协作学习,提出了一个新型匹配模型。
新型模型相比以往模型,增加了基于关系的匹配模块,且将两个匹配模块融合进行协作训练,优化了该场景下的人岗匹配效率。
CIKM大会评审反馈,该论文提出的多视图协作学习网络能够解决人岗匹配系统的负样本噪声问题。同时,融合文本匹配模块和关系匹配模块进行的联合表示学习有助于解决双边交互行为数据稀疏问题,突破了以往匹配模型需要大量有效样本数据的限定条件。而该思路对于互联网求职招聘场景以外领域的推荐系统研究也有一定指导意义。
以下AI科技评论对本论文做详细介绍:1
背景介绍
近年来,随着以BOSS直聘为代表的移动互联网求职招聘平台的兴起,人岗匹配任务越来越受到学术界的关注。
针对该问题,常见的方法是将其转化为一个有监督的文本匹配任务来解决,当标记样本足够充分时,此类方法往往能取得较好的效果。
然而,在真实的互联网求职招聘平台上,求职者和招聘方的交互行为数据往往是稀疏且带有噪声的,这严重影响着匹配算法的性能。
因此,本文提出了一种基于稀疏交互数据的多视图协作学习模型,并将其应用于人岗匹配任务,取得了较好的效果。
该方法的思路如下:
【我们设计了一种全新的匹配模型,包含基于文本的匹配模块和基于关系的匹配模块两部分,这两部分能捕获不同视角下的语义信息,并相互补充。
此外,为了解决交互行为数据稀疏的问题,我们设计了两种特定训练策略来更好地融合这两个匹配模块:
一方面,两个模块共享学习参数和表示,可以增强每个模块初始的表示;
另一方面,我们采用了一种协作学习的机制来减少噪声数据对训练的影响。核心思想是让这两个模块通过选择更置信的训练实例来互相指导训练。
这两种策略可以更好地用于表示的增强和数据的增强。
与单纯基于文本的匹配模型相比,我们所提出的方法 能够从有限甚至稀疏的交互数据中更好地学习数据的表示,在带有噪声的训练数据上该方法也更具鲁棒性。】
2问题定义
对于人岗匹配任务,给定职位文本数据集合
和简历文本数据集合
,以及匹配结果集合
。
其中,每一个职位j或简历r均由多句描述职位或简历的文本构成,