推荐算法之召回模型：DSSM、YoutubeDNN

最新推荐文章于 2024-07-12 17:37:07 发布

莱维贝贝、

最新推荐文章于 2024-07-12 17:37:07 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习与深度学习算法文章标签：推荐算法算法机器学习

本文链接：https://blog.csdn.net/A496608119/article/details/125401017

版权

本文详细介绍了推荐算法中的召回模型，包括DSSM和YoutubeDNN。DSSM是微软提出的文本匹配模型，利用双塔结构进行相似度计算，而YoutubeDNN则在召回阶段使用多层神经网络筛选候选视频，通过特征工程和模型设计优化推荐精度。两者都在召回阶段采用负采样策略，DSSM侧重于语义向量表示，而YoutubeDNN则考虑了用户观看视频序列等多种特征。

摘要由CSDN通过智能技术生成

1. DSSM

1.1 DSSM模型原理

DSSM(Deep Structured Semantic Model)，由微软研究院提出，利用深度神经网络将文本表示为低维度的向量，应用于文本相似度匹配场景下的一个算法。不仅局限于文本，在其他可以计算相似性计算的场景，例如推荐系统中。根据用户搜索行为中query（文本搜索）和doc（要匹配的文本）的日志数据，使用深度学习网络将query和doc映射到相同维度的语义空间中，即query侧特征的embedding和doc侧特征的embedding，从而得到语句的低维语义向量表达sentence embedding，用于预测两句话的语义相似度。

1.2 DSSM结构

在这里插入图片描述
模型结构：user侧塔和item侧塔分别经过各自的DNN得到embedding，再计算两者之间的相似度
特点：

user和item两侧最终得到的embedding维度需要保持一致
对物料库中所有item计算相似度时，使用负采样进行近似计算
在海量的候选数据进行召回的场景下，速度很快
**缺点：**双塔的结构无法考虑两侧特征之间的交互信息，在一定程度上牺牲掉模型的部分精准性。

1.3 正负样本构建

正样本：以内容推荐为例，选“用户点击”的item为正样本。最多考虑一下用户停留时长，将“用户误点击”排除在外
负样本：user与item不匹配的样本，为负样本。

全局随机采样： 从全局候选item里面随机抽取一定数量作为召回模型的负样本，但可能会导致长尾现象。
全局随机采样+热门打压：对一些热门item进行适当的采样，减少热门对搜索的影响，提高模型对相似item的区分能力。
Hard Negative增强样本：选取一部分匹配度适中的item，增加模型在训练时的难度
Batch内随机选择：利用其他样本的正样本在batch内随机采样作为自己的负样本

1.4 DSSM的代码

class DSSM(torch.nn.Module):    
    def __init__(self, user_features, item_features, user_params, item_params, temperature=1.0):
        super().__init__()
        self.user_features = user_features
        self.item_features = item_features
        self.temperature = temperature
        self.user_dims = sum([fea.embed_dim for fea in user_features])
        self.item_dims = sum([fea.embed_dim for fea in item_features])

        self.embedding = EmbeddingLayer(user_features + item_features)
        self.user_mlp = MLP(self.user_dims, output_layer=False, **user_params)
        self.item_mlp = MLP(self.item_dims

最低0.47元/天解锁文章

莱维贝贝、

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
推荐算法之召回模型：DSSM、YoutubeDNN

，由微软研究院提出，利用深度神经网络将文本表示为低维度的向量，应用于文本相似度匹配场景下的一个算法。不仅局限于文本，在其他可以计算相似性计算的场景，例如推荐系统中。根据用户搜索行为中（文本搜索）和（要匹配的文本）的日志数据，使用深度学习网络将query和doc映射到相同维度的语义空间中，即query侧特征的embedding和doc侧特征的embedding，从而得到语句的低维语义向量表达sentence embedding，用于预测两句话的语义相似度。模型结构：user侧塔和item侧塔分别经过各自的D
复制链接

扫一扫

专栏目录