文本匹配、文本相似度模型之DSSM

最新推荐文章于 2024-04-03 09:47:21 发布

发呆的比目鱼

最新推荐文章于 2024-04-03 09:47:21 发布

阅读量928

点赞数

分类专栏：文本匹配文章标签：自然语言处理

原文链接：https://zhuanlan.zhihu.com/p/53326791

版权

文本匹配专栏收录该内容

7 篇文章 0 订阅

订阅专栏

用于学习句子相似性的连体循环架构

转载来自：https://zhuanlan.zhihu.com/p/53326791
github: https://github.com/daiyizheng/shortTextMatch/blob/master/src/DL_model/classic_models/models/DSSM.py

DSSM是Deep Structured Semantic Model的缩写，即我们通常说的基于深度网络的语义模型，其核心思想是将query和doc映射到到共同维度的语义空间中，通过最大化query和doc语义向量之间的余弦相似度，从而训练得到隐含语义模型，达到检索的目的。DSSM有很广泛的应用，比如：搜索引擎检索，广告相关性，问答系统，机器翻译等。

DSSM

典型的DNN结构是将原始的文本特征映射为在语义空间上表示的特征。DNN在搜索引擎排序中主要是有下面2个作用：

将query中term的高维向量映射为低维语义向量
根据语义向量计算query与doc之间的相关性分数

通常， $x$ 用来表示输入的term向量， $y$ 表示输出向量， $l_i, i=1,..., N-1$ 表示隐藏层， $W_i$ 表示第 $i$ 层的参数矩阵， $b_i$ 表示第 $i$ 个偏置项。
$l_1=W_1x$
$l_i=f(W_il_{i-1}+b_i), i=2,...,N-1$
$y=f(W_Nl_{N-1}+b_N)$

这里使用 $t a n h$ 作为输出层和隐藏层的激活函数，有下列公式。
$f(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$

在搜索排序中，我们使用 $Q$ 来表示一个query， $D$ 来表示一个doc，那么他们的相关性分数可以用下面的公式衡量
$R(Q,D)=cosine(y_Q, y_D)=\frac{y_Q^Ty_D}{||y_Q||||y_D||}$

其中， $y_Q$ 与 $y_D$ 是query与doc的语义向量。在搜索引擎中，给定一个query，会返回一些按照相关性分数排序的文档。

通常情况下，输入的term向量使用最原始的bag of words特征，通过one-hot进行编码。但是在实际场景中，词典的大小将会非常大，如果直接将该数据输入给DNN，神经网络是无法进行训练和预测的。因此，在DSSM中引入了word hashing的方法，并且作为DNN中的第一层。

word hashing

word hashing方法是用来减少输入向量的维度，该方法基于字母的 n-gram。给定一个单词（good），我们首先增加词的开始和结束部分（#good#），然后将该词转换为字母 n-gram的形式（假设为trigrams：#go，goo，ood，od#）。最后该词使用字母 n-gram的向量来表示。

这种方法的问题在于有可能造成冲突，因为两个不同的词可能有相同的n-gram向量来表示。下图显示了word hashing在2个词典中的统计。与原始的ont-hot向量表示的词典大小相比，word hashing明显降低了向量表示的维度。

DSSM的学习

点击日志里通常包含了用户搜索的query和用户点击的doc，可以假定如果用户在当前query下对doc进行了点击，则该query与doc是相关的。通过该规则，可以通过点击日志构造训练集与测试集。
首先，通过softmax 函数可以把query 与样本 doc 的语义相似性转化为一个后验概率：

其中 $\gamma$ 是一个softmax函数的平滑因子， $D$ 表示被排序的候选文档集合，在实际中，对于正样本，每一个（query，点击doc）对，使用 $Q, D^+)$ 表示；对于负样本，随机选择4个曝光但未点击的doc，用 ${D_j^-;j=1,...,4\}$ 来表示。

在训练阶段，通过极大似然估计来最小化损失函数：

其中 $\Lambda$ 表示神经网络的参数。模型通过随机梯度下降（SGD）来进行优化，最终可以得到各网络层的参数 ${W_i, b_i\}$ 。

总结

DSSM的提出主要有下面的优点：

解决了LSA、LDA、Autoencoder等方法存在的一个最大的问题：字典爆炸（导致计算复杂度非常高），因为在英文单词中，词的数量可能是没有限制的，但是字母 [公式] -gram的数量通常是有限的
基于词的特征表示比较难处理新词，字母的 [公式] -gram可以有效表示，鲁棒性较强
使用有监督方法，优化语义embedding的映射问题
省去了人工的特征工程

缺点