2021-11-04 CTR预估之Deep Interest NetWork模型原理详解

最新推荐文章于 2022-02-26 09:58:17 发布

泡泡龙的泡泡

最新推荐文章于 2022-02-26 09:58:17 发布

阅读量249

点赞数 1

分类专栏：论文文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_40133431/article/details/121135009

版权

2018年8月发表在KDD的Paper
核心思想：用户的兴趣是多元化的（diversity），并且对于特定的广告，用户不同的兴趣会产生不同的影响(local activation)。

有许多研究将DNN模型应用于CTR预估中，常见的比如，DeepFM, Wide&Deep，PNN等，其主要结构都是使用FM等方式实现Embedding，将大规模稀疏的Web数据转化为稠密的vector。这类模型将原始高维的离散特征映射为固定长度的低维embedding向量，并将embedding向量作为多个全连接层的输入，拟合高阶的非线性关系，最后通过Sigmoid等手段将输出值归一到0~1，表示点击概率。相比于传统的LR、GBDT、FM等模型，这类DNN的模型能减少大量的人工构造特征过程，并且能学习特征之间的非线性关系。
但是，上述DNN模型也存在一定的问题，利用固定维度的embedding向量表示用户的兴趣多样性是有限制的。为了增加模型的多样性学习能力，往往会扩充embedding向量的维度。而广告场景的样本比例往往是不平衡的，在训练样本有限的情况下，扩充特征维度将容易导致过拟合，并且增加了模型训练的负担。
此外，针对某一条广告，没必要将用户的所有兴趣都同等对待，往往决定用户点击的只有一部分兴趣。传统基于DNN的CTR预估模型对用户的历史行为是同等对待的，一般离当前时间越近的行为，越能反应用户目前的兴趣。 因此，DIN利用attention机制对用户历史行为进行了不同的加权处理，针对不同的广告，用户历史行为的权重不一致。

Deep Interest NetWork有以下三点创新：

利用attention机制实现Local Activation，从用户历史行为中动态学习用户兴趣的embedding向量；
CTR中特征稀疏而且维度高，通常利用L1、L2、Dropout等手段防止过拟合。由于传统L2正则计算的是全部参数，CTR预估场景的模型参数往往数以亿计。DIN提出了一种正则化方法，在每次小批量迭代中，给与

关注