2021-03-27 : Task05_DIN模型

最新推荐文章于 2023-02-03 00:33:04 发布

DDxuexi

最新推荐文章于 2023-02-03 00:33:04 发布

阅读量251

点赞数 1

本文链接：https://blog.csdn.net/DDxuexi/article/details/115269940

版权

DIN（Deep Interest Network）是由阿里巴巴提出的深度学习模型，专注于电商广告推荐。该模型通过注意力机制捕捉用户的兴趣变化，解决了传统Embedding&MLP模型无法表达用户广泛兴趣的问题。DIN模型引入局部激活单元，根据用户历史行为与当前广告的关联性动态调整兴趣表示，提高了预测的准确性。模型结构包括Embedding层、注意力网络和MLP，其中注意力网络用于计算历史行为特征与广告的相关性权重，从而自适应地关注与广告相关的用户兴趣。

摘要由CSDN通过智能技术生成

DIN

1. 动机

Deep Interest Network(DIIN)是2018年阿里巴巴提出来的模型，该模型基于业务的观察，从实际应用的角度进行改进，相比于之前很多“学术风”的深度模型，该模型更加具有业务气息。该模型的应用场景是阿里巴巴的电商广告推荐业务，这样的场景下一般会有大量的用户历史行为信息，这个其实是很关键的，因为DIN模型的创新点或者解决的问题就是使用了注意力机制来对用户的兴趣动态模拟，而这个模拟过程存在的前提就是用户之前有大量的历史行为了，这样我们在预测某个商品广告用户是否点击的时候，就可以参考他之前购买过或者查看过的商品，这样就能猜测出用户的大致兴趣来，这样我们的推荐才能做的更加到位，所以这个模型的使用场景是非常注重用户的历史行为特征（历史购买过的商品或者类别信息），也希望通过这一点，能够和前面的一些深度学习模型对比一下。

在个性化的电商广告推荐业务场景中，也正式由于用户留下了大量的历史交互行为，才更加看出了之前的深度学习模型(作者统称Embeding&MLP模型)的不足之处。如果学习了前面的各种深度学习模型，就会发现Embeding&MLP模型对于这种推荐任务一般有着差不多的固定处理套路，就是大量稀疏特征先经过embedding层，转成低维稠密的，然后进行拼接，最后喂入到多层神经网络中去。

这些模型在这种个性化广告点击预测任务中存在的问题就是无法表达用户广泛的兴趣，因为这些模型在得到各个特征的embedding之后，就蛮力拼接了，然后就各种交叉等。这时候根本没有考虑之前用户历史行为商品具体是什么，究竟用户历史行为中的哪个会对当前的点击预测带来积极的作用。而实际上，对于用户点不点击当前的商品广告，很大程度上是依赖于他的历史行为的，王喆老师举了个例子

假设广告中的商品是键盘，如果用户历史点击的商品中有化妆品，包包，衣服，洗面奶等商品，那么大概率上该用户可能是对键盘不感兴趣的，而如果用户历史行为中的商品有鼠标，电脑，iPad，手机等，那么大概率该用户对键盘是感兴趣的，而如果用户历史商品中有鼠标，化妆品， T-shirt和洗面奶，鼠标这个商品embedding对预测“键盘”广告的点击率的重要程度应该大于后面的那三个。

这里也就是说如果是之前的那些深度学习模型，是没法很好的去表达出用户这广泛多样的兴趣的，如果想表达的准确些，那么就得加大隐向量的维度，让每个特征的信息更加丰富，那这样带来的问题就是计算量上去了，毕竟真实情景尤其是电商广告推荐的场景，特征维度的规模是非常大的。并且根据上面的例子，也并不是用户所有的历史行为特征都会对某个商品广告点击预测起到作用。所以对于当前某个商品广告的点击预测任务，没必要考虑之前所有的用户历史行为。

这样， DIN的动机就出来了，在业务的角度，我们应该自适应的去捕捉用户的兴趣变化，这样才能较为准确的实施广告推荐；而放到模型的角度，我们应该考虑到用户的历史行为商品与当前商品广告的一个关联性，如果用户历史商品中很多与当前商品关联，那么说明该商品可能符合用户的品味，就把该广告推荐给他。而一谈到关联性的话，我们就容易想到“注意力”的思想了，所以为了更好的从用户的历史行为中学习到与当前商品广告的关联性，学习到用户的兴趣变化，作者把注意力引入到了模型，设计了一个"local activation unit"结构，利用候选商品和历史问题商品之间的相关性计算出权重，这个就代表了对于当前商品广告的预测，用户历史行为的各个商品的重要程度大小，而加入了注意力权重的深度学习网络，就是这次的主角DIN，下面具体来看下该模型。

2. DIN模型结构及原理

在具体分析DIN模型之前，我们还得先介绍两块小内容，一个是DIN模型的数据集和特征表示，一个是上面提到的之前深度学习模型的基线模型，有了这两个，再看DIN模型，就感觉是水到渠成了。

2.1 特征表示

工业上的CTR预测数据集一般都是multi-group categorial form的形式，就是类别型特征最为常见，这种数据集一般长这样：

这里的亮点就是框出来的那个特征，这个包含着丰富的用户兴趣信息。

对于特征编码，作者这里举了个例子：[weekday=Friday, gender=Female, visited_cate_ids={Bag,Book}, ad_cate_id=Book]，这种情况我们知道一般是通过one-hot的形式对其编码，转成系数的二值特征的形式。但是这里我们会发现一个visted_cate_ids，也就是用户的历史商品列表，对于某个用户来讲，这个值是个多值型的特征，而且还要知道这个特征的长度不一样长，也就是用户购买的历史商品个数不一样多，这个显然。这个特征的话，我们一般是用到multi-hot编码，也就是可能不止1个1了，有哪个商品，对应位置就是1，所以经过编码后的数据长下面这个样子：

这个就是喂入模型的数据格式了，这里还要注意一点就是上面的特征里面没有任何的交互组合，也就是没有做特征交叉。这个交互信息交给后面的神经网络去学习。

2.2 基线模型

这里的base 模型，就是上面提到过的Embedding&MLP的形式，这个之所以要介绍，就是因为DIN网络的基准也是他，只不过在这个的基础上添加了一个新结构(注意力网络)来学习当前候选广告与用户历史行为特征的相关性，从而动态捕捉用户的兴趣。

基准模型的结构相对比较简单，我们前面也一直用这个基准，分为三大模块：Embedding layer，Pooling & Concat layer和MLP，结构如下:

前面的大部分深度模型结构也是遵循着这个范式套路，简介一下各个模块。

Embedding layer：这个层的作用是把高维稀疏的输入转成低维稠密向量，每个离散特征下面都会对应着一个embedding词典，维度是 $D\times K$ ，这里的 $D$ 表示的是隐向量的维度，而 $K$ 表示的是当前离散特征的唯一取值个数, 这里为了好理解，这里举个例子说明，就比如上面的weekday特征：

假设某个用户的weekday特征就是周五，化成one-hot编码的时候，就是[0,0,0,0,1,0,0]表示，这里如果再假设隐向量维度是D，那么这个特征对应的embedding词典是一个 $D\times7$ 的一个矩阵(每一列代表一个embedding，7列正好7个embedding向量，对应周一到周日)，那么该用户这个one-hot向量经过embedding层之后会得到一个 $D\times1$ 的向量，也就是周五对应的那个embedding，怎么算的，其实就是 $embedding矩阵* [0,0,0,0,1,0,0]^T$ 。其实也就是直接把embedding矩阵中one-hot向量为1的那个位置的embedding向量拿出来。这样就得到了稀疏特征的稠密向量了。

其他离散特征也是同理，只不过上面那个multi-hot编码的那个，会得到一个embedding向量的列表，因为他开始的那个multi-hot向量不止有一个是1，这样乘以embedding矩阵，就会得到一个列表了。通过这个层，上面的输入特征都可以拿到相应的稠密embedding向量了。

pooling layer and Concat layer： pooling层的作用是将用户的历史行为embedding这个最终变成一个定长的向量，因为每个用户历史购买的商品数是不一样的，也就是每个用户multi-hot中1的个数不一致，这样经过embedding层，得到的用户历史行为embedding的个数不一样多，也就是上面的embedding列表 $t_i$ 不一样长，那么这样的话，每个用户的历史行为特征拼起来就不一样长了。而后面如果加全连接网络的话，我们知道，他需要定长的特征输入。所以往往用一个pooling layer先把用户历史行为embedding变成固定长度(统一长度)，所以有了这个公式：

$e_i=pooling(e_{i1}, e_{i2}, ...e_{ik})$

这里的 $e_{ij}$ 是用户历史行为的那些embedding。 $e_i$ 就变成了定长的向量，这里的 $i$ 表示第 $i$ 个历史特征组(是历史行为，比如历史的商品id，历史的商品类别id等)，这里的 $k$ 表示对应历史特种组里面用户购买过的商品数量，也就是历史embedding的数量，看上面图里面的user behaviors系列，就是那个过程了。 Concat layer层的作用就是拼接了，就是把这所有的特征embedding向量，如果再有连续特征的话也算上，从特征维度拼接整合，作为MLP的输入。

MLP：这个就是普通的全连接，用了学习特征之间的各种交互。
Loss: 由于这里是点击率预测任务，二分类的问题，所以这里的损失函数用的负的log对数似然：

$L=-\frac{1}{N} \sum_{(\boldsymbol{x}, y) \in \mathcal{S}}(y \log p(\boldsymbol{x})+(1-y) \log (1-p(\boldsymbol{x})))$