推荐系统(6)-注意力机制+深度推荐模型、强化学习推荐系统

注意力机制+深度推荐模型、强化学习推荐系统

1.AFM -2017

Attention factorization machines–浙江大学–基于模型结构的改进
引入注意力机制FM, 可视为NFM模型的改进。给特征交叉池化后的特征向量施加不同的注意力权重。

出发点:预测某一男性是否购买某一键盘。那么‘性别为男且历史行为购买过鼠标’ 这一交叉特征 很可能 比 ‘性别为男且年龄为30’这一交叉特征更为重要。

具体做法:交叉特征进全联接层,softmax输出 特征权重。全联接层的参数随网络训练
(感觉注意力机制池化层就是多加了一个全联接权重输出层啊)

2.DIN-2017

Deep Interest Network–阿里巴巴-电商广告推荐-基于业务观察的模型改进

出发点:用户特征组 和 广告特征组中的商品id 和商铺id应该有不同的权重地位。
具体做法:利用候选商品和历史行为商品之间的相关性计算出一个权重。–注意力激活单元

(详细结构看书,注意力网路输出的只是权重,而不是后一层的输入)

3.DIEN-2019

Deep interest evolution network–阿里巴巴–序列模型模拟了用户兴趣的演化。
推荐系统的真正推荐目标:针对下一次购买的推荐。
特定用户的历史行为都是一个随时间排序的序列,用户兴趣的迁移其实非常快。
序列信息的重要性在于:

  1. 强调最近行为对下次行为预测的影响
  2. 序列模型能够学习到购买趋势的信息

核心:如何构建兴趣进化网络。兴趣进化网络分为三层
3. 行为序列层–原始行为的embedding
4. 兴趣抽取层–GRU模拟用户行为迁移
5. 兴趣进化层–AUGRU用注意力机制强调不同兴趣演化路径的重要性(h(t)的每一维度为一个兴趣演化路径?)

4. DRN-2018

Deep reinforcement for news recommender–宾夕法尼亚州立大学 + 微软亚洲研究院–新闻推荐系统
将强化学习模型应用到推荐系统中,一些关键概念的解释

  1. 智能体:推荐系统
  2. 环境:新闻网站、app、用户组成的整个推荐系统的外部环境
  3. 行动:推荐系统进行新闻排序后推荐
  4. 反馈:用户的点击行为
  5. 状态:有关于用户,新闻的特征

最大优势–利用‘行动-反馈-状态更新’,实现在线更新推荐模型

典型的深度强化学习模型:DQN

DRN在线学习模型中包含“微更新”和“主更新”

  1. 微更新–竞争梯度下降法–随机变换推荐模型的梯度,给出推荐列表2;原始推荐模型给出推荐列表1。两张推荐列表同时推送给用户,如果表2的结果比表1好,用改动后的模型代替原始推荐模型。不断重复这个过程。
  2. 主更新–利用用户点击数据、用户活跃度数据整个模型的迭代更新
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值