【Wide & Deep Learning for Recommender Systems】-CSDN博客

本文链接：https://blog.csdn.net/Vitamin_R/article/details/121746824

说些废话

最近开始接触深度学习的东西，有些无从下手，需要学的东西太多了。另外感觉很久没写过博客了，很有些怀念当初在实验室一起学习一起训练的日子。嗯不出意外的话，准备将这一阶段的学习记录同步到博客，也给自己加深印象。

这篇论文是我看的第二篇论文，关于第一篇论文的理解后续应该会继续更在这个专栏里。这篇论文讲的是一个 Wide & Deep 模型，通过名字就可以看出，是一个分为 Wide 部分和 Deep 部分的模型。至于具体介绍（我理解的）会在正文里提到。

关于这篇文章，其实最开始写的时候，写了蛮长的字的，基本把论文的每一段都描述了一遍，但是后来删删减减，就剩下现在这个样子了。好了，下次再叨叨，下面是正文。

Wide & Deep

先简单介绍一下这个模型。

Wide&Deep 模型的核心思想是结合线性模型的记忆能力（memorization）和 DNN （Deep Neural Networks（深度神经网络））模型的泛化能力（generalization），在训练过程中同时优化 2 个模型的参数，从而达到整体模型的预测能力最优。

Memorization能力：模型直接学习并利用（exploiting）历史数据中物品或特征“贡献频率”的能力。

Generalization能力：基于特征传递的相关性，探索（exploring）过去从未或很少发生的新特征组合。

那么知道了这两个概念，再来理解 Wide & Deep 模型就很简单了。顾名思义，Wide & Deep分为 Wide 和 Deep。

Wide部分：通过线性模型来处理大量历史的行为特征，使模型具有“记忆能力”。但其通常依赖于更多的特征工程。
Deep部分：通过对稀疏特征的embedding进行学习，模型可以较好地推广到不可见的深度特征组合，让模型具有“泛化能力”。但如果数据过于稀疏，那么神经网络会过度泛化，即过拟合。

模型结构

图片来源于论文，图中从左到右分别为Wide Models，Wide & Deep Models 和 Deep Models。从图中可以看出来，Wide 模型其实就是一个线性模型，Deep模型是深度神经网络模型。

Wide 部分

Wide部分是一个广义线性模型：

y = w^Tx + b

其中y是我们要预测的结果，x是特征（一个d维的向量），这里的d是特征的数量。同样w也是一个d维的权重向量，b则是偏移量（其实就是一个标准的线性回归模型）。

特征包含两个部分，一种是原始数据直接拿过来的数据，另外一种是我们经过特征转化（cross-product transformation）之后得到的特征。

Deep 部分

这部分是一个Embedding+MLP的神经网络模型。观察图可以发现，图中输入是Sparse Features。大规模稀疏特征通过embedding转化为低维密集型特征。然后特征进行拼接输入到MLP中，挖掘藏在特征背后的数据模式。

奥对，先介绍一下embeding，深度神经网络模型通常需要的输入是连续的稠密特征，对于稀疏，高维的类别特征，通常首先将其转换为低维的向量，这个过程也称为embedding。

MLP就是一个除了输入输出层，中间会包含一些隐藏层（hidden layer）的结构。

网络会对一些sparse特征（如ID类特征）学习一个低维的dense embeddings（维度量级通常在O(10)到O(100)之间），然后和一些原始dense特征一起作为网络的输入。

Wide & Deep模型的联合训练

Wide部分和Deep部分的输出进行加权求和作为最后的输出。

图中最上层输出之前其实是一个sigmoid层或者是一个linear层，就是一个简单的线性累加，即joint。

模型具体实现

实验场景 Google Play商店的app推荐中，当一个user访问Google Play，会生成一个包含user和contextual信息的query，推荐系统的精排模型会对于候选池中召回的一系列apps（即item，文中也称 impression）进行打分，按打分生成app的排序列表返回给用户。Deep&Wide对应这里的精排模型，输入 x 包括<user，contextual，impression>信息的向量，y=1表示用户下载了impression app，打分即 P(y|x) 。

文中的模型实现：

输入的features 分为 Continuous Features（连续特征）和 Categorical Features（分类特征）。Categorical 特征映射到32维embeddings，和原始Continuous特征共1200维作为输入。Wide部分只用了一组特征叉乘，即被推荐的app ☓ 用户下载的app。线上模型更新时，通过“热启动”重训练，即使用上次的embeddings和模型参数初始化。

总结

以上就是本篇文章的全部内容了，删减之后剩下的东西不多，其中部分比较重要的公式也没有介绍写入。当然~，也有我还没整明白具体实现的原因在内。不过基本上就是这个样子了，后面会尝试一下去用代码实现这部分功能。现在还没开始动手，准备先多了解一下。

嗯下篇要记录的论文是一个很厉害的东西，【Deep Residual Learning for Image Recognition】