Deep Interest Network for Click-Through Rate Prediction阅读
对比网络结构
在old网络中:
- 候选ad只是跟用户历史特征进行一个简单concatenate,并没有考虑候选特征与用户例行行为之间的相关性。
- 所有用户例行行为特征都被压缩成相同长度的embedding vector。
在DIN网络中:
- 通过考虑特征历史行为特征与候选特征之间的相关性,自适应计算用户历史行为特征的embedding vector。
local activation unit
上述是“local activation unit”的计算公式。
因为作者认为所有权重总和,在某种程度上,代表着“激活用户兴趣的强度”。如果对权重w进行归一化,是的总和为1,就无法区分 “候选广告” 与 “历史行为特征” 之间的兴趣强度。
文中举例子:如果用户90%的历史记录是衣服,10%的历史记录是电子产品,那么当候选广告有T恤和手机时,T恤肯定会激活更多的历史记录,最终的V_u值更大。
我的疑问:这样会不会导致给用户一直推荐同一类商品。即推荐多样性就会降低。