Conv-knrm模型介绍

最新推荐文章于 2023-12-01 18:25:46 发布

九二_

最新推荐文章于 2023-12-01 18:25:46 发布

阅读量1.3k

点赞数 1

分类专栏： NLPIR 个性化搜索文章标签： nlp

本文链接：https://blog.csdn.net/qq_43631376/article/details/108523548

版权

NLPIR 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

个性化搜索

5 篇文章 0 订阅

订阅专栏

Conv-knrm模型介绍

前言
N-gram组成和交叉匹配
使用n-gram的转换矩阵来排序
域迁移

论文链接

前言

该模型是同作者对KNRM的改进，KNRM直接计算了query和document的单词嵌入向量之间的余弦作为其单词level的相似性，进而使用kernel-pooling计算query和document的相似性，Conv-knrm则考虑了n-gram级别的单词表达，通过卷积的形式计算单词的n-gram representation，同时将所有的query和document表达矩阵交叉匹配，计算多个相似矩阵，每个相似矩阵都是用kernel-pooling提取单词不同程度的软匹配，从而从更多的角度，更细粒的来获得query和document的相似性。

在这里插入图片描述

N-gram组成和交叉匹配

$T_d, T_q$ 表示document和query的嵌入矩阵。单词的嵌入维度为 $L$
$v = w·T_{i:i+h}$
对于一个窗口大小为h的卷积来说，一个卷积核就是对这h个单词嵌入加权求和，获得一个value。 $w$ 是 $1\times hL$
设 $F$ 个卷积核来从不同角度计算value：
$\overrightarrow{g}^h_i = relu(W^h·T_{i:i+h}+\overrightarrow{b}^h), i=1,...,m \\ W^h:F\times hL, \overrightarrow{b}^h:F\times1$
当计算到边界单词时添加’<PAD>’。
即：
$G^h = CNN^h(T) = [\overrightarrow{g}^h_1,\overrightarrow{g}^h_2,...,\overrightarrow{g}^h_m]\\ G^h:m\times F$
$G^h$ 的每一行都代表一个长度为F的h-gram向量。这样可以计算 $G^h_q, G^h_d, h=1,...,h_{max}$

交叉匹配层就是匹配query和document的各个长度（这个长度指的是h-gram的h）的n-grams。设query的n-gram的长度为 $h_q$ ,document的n-gram的长度为 $h_d$ ，可以生成一个转换矩阵 $M^{h_q,h_d}$ ，该矩阵的每一个元素都代表query-document的n-gram对的相似值。
$M_{i,j}^{h_q,h_d} = cos(\overrightarrow{g}_i^{h_q},\overrightarrow{g}_j^{h_d})\\ M=\{M^{h_q,h_d}|1<=h_q<=h_{max}, 1<=h_d<=h_{max}\}$

使用n-gram的转换矩阵来排序

这一步把转换矩阵 $M$ 池化为K维的软特征向量，对于每一个转换矩阵： $\\ \phi(M^{h_q,h_d})=\{K_1(M^{h_q,h_d}),K_2(M^{h_q,h_d}),...,K_k(M^{h_q,h_d})\}\\ \phi(M^{h_q,h_d}):k\times 1\\ K_k(M^{h_q,h_d}) = \sum_{i=1}^{m}\log K_k(M_i^{h_q,h_d})\\ K_k(M_i^{h_q,h_d}) = \sum\limits_{j}\exp(-\frac{(M_{ij}^{h_q,h_d}-\mu_k)^2}{2\sigma_k^2})$
其中 $\mu_k,\sigma_k$ 是人为确定的。

$\Phi(M) = \phi(M^{1,1})⊕...\phi(M^{h_q,h_d})...⊕\phi(M^{h_{max},h_{max}})\\ \Phi(M):K\times h_{max}^2$

Learning-to-rank:
$tanh(w_r^T\Phi(M)+b_r)$
计算上式时先把 $M$ 展开成 $(K·h_{max}^2)\times1,w_r:1\times (K·h_{max}^2),b_r :1$
损失函数是：
$l=\sum\limits_{q}\sum\limits_{d^+,d^- \in D_q^{+,-}}max(0,1-f(q,d^+)+f(q,d^-))$
$D_q^{+,-}$ 表示的是对于query $q$ 的文档对， $d^+$ 的相关性高于 $d^-$ （一般情况： $d^+$ 是被用户点击过的文档， $d^-$ 是被跳过的文档）。

域迁移

现实中可能目标域的标签十分有限。所以作者提出了一个域迁移的方法。在相似的数据充足的源域里训练Conv-knrm模型，然后在目标域里再次训练。不过再次训练的过程只更新learning-to-rank层。前面的是固定的。

因为转换矩阵M的每一个元素都从不同的角度（这里的不同角度我是这样理解的：不同的kernels（ $\mu,\sigma$ ）代表了不同的侧重点，h-gram不同的h也代表了word representation的不同角度的表达，cross match更是通过排列组合的形式把所有可能出现的表达形式都计算出来）代表某一种特定类型的软标签，learning-to-rank层就是学习当前域里这些软标签的权重，域迁移时软标签是稳健的，但是他们的权重是会变化的，因此只学习learning-to-rank层的权重参数即可。

九二_

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Conv-knrm模型介绍

Conv-knrm模型介绍前言N-gram组成和交叉匹配使用n-gram的转换矩阵来排序域迁移论文链接前言该模型是同作者对KNRM的改进，KNRM直接计算了query和document的单词嵌入向量之间的余弦作为其单词level的相似性，进而使用kernel-pooling计算query和document的相似性，Conv-knrm则考虑了n-gram级别的单词表达，通过卷积的形式计算单词的n-gram representation，同时将所有的query和document表达矩阵交叉匹配，计算多个相
复制链接

扫一扫

专栏目录