每周一文（五）阿里DIN模型

最新推荐文章于 2023-07-27 20:07:13 发布

LightYoungLee

最新推荐文章于 2023-07-27 20:07:13 发布

阅读量180

点赞数

分类专栏：每周一文文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/weixin_37688445/article/details/115384096

版权

每周一文专栏收录该内容

14 篇文章 2 订阅

订阅专栏

契机

对于当前预测的item，用户行为列表中每一个item对最终结果的影响程度不同，引入attention来求出用户行为列表中每个item的权重，并将这些item对应的embedding加权求和得到最终的用户行为embedding向量。

模型核心内容

在这里插入图片描述
对于用户行为历史中的每个 $item_i$ ，都与当前预测 $item_{predict}$ 进行一次attention交互得到 $item_i$ 的权重 $w_i$ 。上图中attention的过程是将 $item_i$ 对应的embedding $emb_i$ 和 $item_{predict}$ 对应的embedding $emb_{predict}$ 进行如下计算：
$concat(emb_i, emb_i * emb_{predict}, emb_{predict})$

实际使用过程要比上述操作丰富一些：

$concat(emb_i, emb_i * emb_{predict}, emb_{predict}, emb_{predict}-emb_i)$

之后经过激活函数以及sigmoid得到 $item_i$ 的权重 $w_i$ 。最终将加权求和后的embedding向量 $\sum_i w_i*emb_i$ 作为用户行为的最终embedding向量表示。

论文中attention和传统attention不同点在于：传统attention是先算每个key与query的交互得分score，之后送入softmax得到权重，且所有的权值和为1，因而其加权后的embedding更类似于用户兴趣表示；而论文中的attention没有softmax的过程，因而其加权后的embedding更类似于用户行为历史中哪些item和当前item更相关。

attention代码实现

import tensorflow as tf
from tensorflow.keras import layers
from layers.Dice import Dice, dice

class attention(tf.keras.layers.Layer):
    def __init__(self, keys_dim):
        super(attention, self).__init__()
        self.keys_dim = keys_dim
        self.fc = tf.keras.Sequential()
        self.fc.add(layers.BatchNormalization())
        self.fc.add(layers.Dense(36, activation="sigmoid")) 
        self.fc.add(dice(36))
        self.fc.add(layers.Dense(1, activation=None))

	# queries代表的是预测item对应的embedding
	# keys代表的是user行为历史列表
    def call(self, queries, keys, keys_length):
    	# attention
    	## 先复制多份queries，使得其能通过矩阵运算一并得出attention权重
        queries = tf.tile(tf.expand_dims(queries, 1), [1, tf.shape(keys)[1], 1])
        din_all = tf.concat([queries, keys, queries-keys, queries*keys], axis=-1)
        outputs = tf.transpose(self.fc(din_all), [0,2,1])

		# padding
        key_masks = tf.sequence_mask(keys_length, max(keys_length), dtype=tf.bool)
        key_masks = tf.expand_dims(key_masks, 1)
        paddings = tf.ones_like(outputs) * (-2 ** 32 + 1)
        outputs = tf.where(key_masks, outputs, paddings)

		# normalization
        outputs = outputs / (self.keys_dim ** 0.5)

		# sigmoid
        outputs = tf.keras.activations.sigmoid(outputs)
        
        # sum Pooling
        # outputs为权重列表(1 * keys个数)， keys为(keys个数 * emb_dim)
        # 两者相乘得到加权后的outputs
        outputs = tf.squeeze(tf.matmul(outputs, keys))
        print("outputs:" + str(outputs.numpy().shape))
        return outputs

参考

LightYoungLee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
每周一文（五）阿里DIN模型

契机对于当前预测的item，用户行为列表中每一个item对最终结果的影响程度不同，引入attention来求出用户行为列表中每个item的权重，并将这些item对应的embedding加权求和得到最终的用户行为embedding向量。模型核心内容对于用户行为历史中的每个itemiitem_iitemi，都与当前预测itempredictitem_{predict}itempredict进行一次attention交互得到itemiitem_iitemi的权重wiw_iwi。上图中attenti
复制链接

扫一扫