论文阅读:Neural Ranking Models with Multiple Document Fields

本文探讨一个基于多源文档片段的排序模型,所谓多源文档片段与传统的query对应document的区别在于,document不仅仅包含文档内容和文档标题,还包括一些其他信息,比如相关链接的文档内容、引导点击对应文档的query(clicked query),如何将这些信息都利用上就成为了一个新的问题,文章提出了一个解决该问题的模型。

首先,模型的整体思路是将query和document 分别表示成两个向量,然后计算出匹配得分,思路如下图所示:

 对于doc representation,模型参考Learning Deep Structured Semantic Models for Web Search using Clickthrough Data中使用的word hash来降低词向量的维度,设置n为3来降低冲突概率,并通过embedding层得到hash值对应的向量。通过embedding层得到的词向量防止了长度过长的词权重过高的影响,同时采用与word2vec不同的基于相关性的词向量表示。在embedding层之后是两个卷积层,分别提取词级别和句子级别的特征,最后通过一个全连接层得到最终的向量表示,模型结构如下图所示:

 以上模型只是对于单个文本的表示,而如之前所说,在一个document中有多个field,每个field内又有多个instance,每个instance都是一个文本。因此,将所有instance的表示向量结合起来就得到一个field的表示向量,将多个field的表示向量综合起来就可以得到最终document的向量表示,如下图所示:

文中对多个instance的结合使用的是取平均(具体取平均的方法用用到了masking,之后会提到),而将多个field结合则直接连接多个向量。实现过程中涉及到两个技巧:field-level masking和field-level dropout。其中field-level masking是考虑到同一个field内instance的数量不同,因此结合的时候使用该field实例数量的最大值,不到最大值时使用zero向量做padding,为了防止这些zero向量在模型训练过程中造成的影响(反向传播时zero向量由于偏移量b的存在仍然会产生梯度,而这个梯度是无效的),引入了masking,具体表现为一个只有0-1两个值的矩阵,zero向量对应值为0,非zero向量对应值为1,这样反向传播过程中zero向量就不会产生梯度。同时,masking矩阵还用来取平均值,将zero向量排除在外。field-level dropout是防止模型训练过程中过于依靠某个field(比如clicked query对匹配影响过大),这样当该field内instance过少时模型效果不佳,所以模型在训练时使用了random dropout。

query representation的方法和对于单个instance表示的方法相同。最后在将query representation和doc representation匹配的过程中,使用Hadamard product,即element-wise的product,而不是使用普通的dot,这样是为了保证每个field内的值都对结果产生影响。将Hadamard product的结果通过一个隐含层得到最终的匹配分数。

最后,模型训练时使用的pairwise,损失函数使用的是交叉熵,损失函数如下:

其中的pi1指的是文章1分数比文章2分数高的概率,是通过最终分数的softmax值得到的 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值