随着网络招聘的发展与壮大,网聘渠道积攒着数亿份个人简历以及上千万份企业招聘信息。如何将这些简历和岗位进行精准匹配是各大招聘平台面临的重大挑战。
问题描述
在人岗匹配中,JD文档由多句工作描述和岗位要求组成,CV文档主要由求职者的工作经历组成。传统人岗匹配中通过对求职者简历的工作经历文本和JD岗位信息进行文本挖掘,两者的技能和能力是否契合作为判断JD和CV是否匹配的重要依据。早期的人岗匹配版本基于term重要性,bm25以及职能标签等信息做简单的匹配模型,但是这些方法很难挖掘特征与特征之间的关系以及潜在的信息交互特征,难以表达完整的岗位(JD)和简历(CV)的语义信息。鉴于此,本文提出了基于LSTM+double Attention网络的语义匹配模型[1]。
模型介绍
句子相似度计算是自然语言处理中重要而又基础的研究工作。例如:在对话系统中,用于查找最可能的答案;在文档检索中,用于查找最为相似的文档;在双句关系判断任务中,用于判断两个句子之间关系的类别等。目前常见的句子相似度计算方法大体上可以分为三类:
(1)基于表层信息的相似度计算,其主要是通过句子中词性相似度、词序相似度和句长相似度等信息来综合计算两个句子的相似度[2]。
(2)基于句子结构的相似度计算。这种方法主要考查量句子在结构上的相似性,如基于本体机构、词类串结构、词性及词性依存关系等进行相似度计算[3]。
(3)基于词向量的语义表征来计算相似度。其通过垂直领域的文本数据训练得到word embedding, 借助词向量得到句子表征,然后计算cosine距离[4]。
JD和CV的语义相似度计算,其本质是双文档关系判断任务或是长文本相似度匹配问题,和句子相似度计算不同之处在于文档是由多个句子组成。句子表征是文档表征的基础,本文的句子表征学习通过LSTM网络[5-6]学习到每个词或字语义表示,同时通过attention 机制[7-8]学习到每个词语义的权重。长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM通过对文本序列的不断迭代有选择继承历史信息以获得当前更好的语义表征,所以其能够在更