CTR预估模型DSSM

最新推荐文章于 2024-07-12 17:37:07 发布

rosefunR

最新推荐文章于 2024-07-12 17:37:07 发布

阅读量9.1k

点赞数

分类专栏：算法

本文为博主CSDN Rosefun96原创文章，转载请注明。

本文链接：https://blog.csdn.net/rosefun96/article/details/108455460

版权

算法同时被 2 个专栏收录

105 篇文章 27 订阅

订阅专栏

CTR

7 篇文章 1 订阅

订阅专栏

1. 简介

CTR预估模型主要用于搜索，推荐，计算广告等领域，传统CTR模型包括逻辑回归LR模型，因子分解机FM模型，梯度提升树GBDT模型等。
优点是可解释性强，训练和部署方便，便于在线学习。

在搜索广告的场景中，query 和document使用不同的单词，同一个单词不同形态来表达同一个概念，需要通过文本的单词匹配来计算query和document的相似性。

2. DSSM 模型

思想：
将query 和document降维到公共的低维空间，在低维空间，query 和document的相似性通过两者的距离来衡量。
和 LSA（latent semantic model）的区别：
（1）LSA的低维空间通过无监督学习，利用单词的共现规律来训练；
（2）DSSM的低维空间通过有监督学习，利用（query，document）pair对的点击规律来训练。

在这里插入图片描述

模型训练阶段
（1）计算给定query下每个document的后验概率。
前向传播：
在这里插入图片描述

在这里插入图片描述
$\gamma$ 是平滑因子。
最小化损失函数：

模型预测阶段：
DSSM模型将原始的文本特征映射到低维的语义空间。
（1）将query 和document表示为词频向量，向量由每个单词出现的词频组成。
在这里插入图片描述
将 q 和 d 映射到降维语义空间，得到 query的语义向量 $y_q$ 和document的语义向量 $y_d$ .

（2）计算 $y_q$ 和 $y_d$ 的相似度：

$cos(y_d, y_q) = \frac{y_q \cdot y_q}{|| y_q || \cdot || y_d ||}$

（3）对于给定的query，计算所有的document 和他的相似度，并截取 top K 个document即可得到排序结果：
在这里插入图片描述

3. 模型实现细节

word hashing:
目的：减少 bag-of-words的维度。比如，词库有50万，用one-hot的方式来表示单词的话，每个单词的向量维度就是50万，会导致输入的参数很多。
方法： word hash。
给定单词，如 word，增加开始和结束的mask，比如#word#. 然后，把单词用n-grams来表示，比如 3-grams: #wo, wor, ord. 最后 char-level n-grams单词的向量来表示。

但目前存在一个问题：冲突。不同的单词可以有相同的 n-grams 向量表示，以下统计了冲突的比例：
在这里插入图片描述
可以看到 letter-trigram的冲突比例是可以接受的。