论文阅读：Neural Ranking Models with Multiple Document Fields

最新推荐文章于 2022-09-21 22:35:09 发布

RUCblake

最新推荐文章于 2022-09-21 22:35:09 发布

阅读量959

点赞数 1

分类专栏：深度学习文章标签：深度学习多文档

本文链接：https://blog.csdn.net/qq_36891953/article/details/82078618

版权

深度学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

本文探讨一个基于多源文档片段的排序模型，所谓多源文档片段与传统的query对应document的区别在于，document不仅仅包含文档内容和文档标题，还包括一些其他信息，比如相关链接的文档内容、引导点击对应文档的query（clicked query），如何将这些信息都利用上就成为了一个新的问题，文章提出了一个解决该问题的模型。

首先，模型的整体思路是将query和document 分别表示成两个向量，然后计算出匹配得分，思路如下图所示：

对于doc representation，模型参考Learning Deep Structured Semantic Models for Web Search using Clickthrough Data中使用的word hash来降低词向量的维度，设置n为3来降低冲突概率，并通过embedding层得到hash值对应的向量。通过embedding层得到的词向量防止了长度过长的词权重过高的影响，同时采用与word2vec不同的基于相关性的词向量表示。在embedding层之后是两个卷积层，分别提取词级别和句子级别的特征，最后通过一个全连接层得到最终的向量表示，模型结构如下图所示：

以上模型只是对于单个文本的表示，而如之前所说，在一个document中有多个field，每个field内又有多个instance，每个instance都是一个文本。因此，将所有instance的表示向量结合起来就得到一个field的表示向量，将多个field的表示向量综合起来就可以得到最终document的向量表示，如下图所示：

文中对多个instance的结合使用的是取平均（具体取平均的方法用用到了masking，之后会提到），而将多个field结合则直接连接多个向量。实现过程中涉及到两个技巧：field-level masking和field-level dropout。其中field-level masking是考虑到同一个field内instance的数量不同，因此结合的时候使用该field实例数量的最大值，不到最大值时使用zero向量做padding，为了防止这些zero向量在模型训练过程中造成的影响（反向传播时zero向量由于偏移量b的存在仍然会产生梯度，而这个梯度是无效的），引入了masking，具体表现为一个只有0-1两个值的矩阵，zero向量对应值为0，非zero向量对应值为1，这样反向传播过程中zero向量就不会产生梯度。同时，masking矩阵还用来取平均值，将zero向量排除在外。field-level dropout是防止模型训练过程中过于依靠某个field（比如clicked query对匹配影响过大），这样当该field内instance过少时模型效果不佳，所以模型在训练时使用了random dropout。

query representation的方法和对于单个instance表示的方法相同。最后在将query representation和doc representation匹配的过程中，使用Hadamard product，即element-wise的product，而不是使用普通的dot，这样是为了保证每个field内的值都对结果产生影响。将Hadamard product的结果通过一个隐含层得到最终的匹配分数。

最后，模型训练时使用的pairwise，损失函数使用的是交叉熵，损失函数如下：