密歇根州立大学联合京东提出深度强化学习算法DeepPage用于分页推荐

最新推荐文章于 2024-04-22 09:39:14 发布

frank_hetest

最新推荐文章于 2024-04-22 09:39:14 发布

阅读量354

点赞数

文章标签：算法深度学习推荐系统人工智能编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hestendelin/article/details/119122346

版权

Deep Reinforcement Learning for Page-wise Recommendations

Xiangyu Zhao, Long Xia, Liang Zhang, Zhuoye Ding, Dawei Yin, Jiliang Tang

Michigan State University, JD.com

https://www.cse.msu.edu/~zhaoxi35/paper/recsys2018.pdf

推荐系统可以通过推荐个性化商品来缓解信息过载问题。在电子商务等真实推荐场景中，系统和用户的交互一般是推荐一页商品给到用户，用户给出反馈，然后系统推荐新的一页商品。

为了更有效的捕捉这种交互行为进而更好的推荐商品，需要解决两个关键问题，其一即为根据用户实时反馈来更新推荐策略，其二即为通过适当的形式来生成一页商品，这对于传统推荐系统挑战性非常大。

这篇文章研究分页式推荐问题，旨在解决同时解决上面两个挑战。具体而言，作者们提出一种原理性方法，联合生成互补的商品集合，同时生成相应的策略在二维页面中展示这些商品。提出一种新的基于深层强化学习的分页式推荐框架，DeepPage，这种框架基于用户的实时反馈来优化一页商品，同时适当的展示这些商品。

在真实电子商务数据集上的实验结果表明作者们所提框架的有效性。

推荐系统与用户的交互流程图示如下

这篇文章的主要贡献如下

强化学习的五大要素简介如下

几种框架结构对比图示如下

作者们采用的框架为actor-critic框架

作者们提出的actor可以解决下面三个挑战性问题

初始状态生成的encoder框架简介如下

初始状态生成的encoder框架图示如下

产生实时状态的encoder结构图示如下

生成action的解码过程简介如下

这篇文章所提框架图示如下

线上训练所依赖的mapping 算法伪代码如下

利用DDPG的DeepPage在线训练算法伪代码如下

DeepPage在线测试算法伪代码如下

DeepPage离线测试算法伪代码如下

实验中的数据集简介、分割、参数设置、模型指标等简介如下

几种方法的效果对比如下

线上测试场景中，几种方法效果对比如下

为了测试各个组件的作用，作者们还测试了去除各个组件之后的效果，结果如下

我是分割线

您可能感兴趣

诺亚方舟实验室提出数值特征自动离散框架AutoDis用于CTR预估

乔治亚理工提出基于GAN的强化学习算法用于推荐系统

民宿平台airbnb是如何动态定价的

密歇根州立大学联合领英提出基于AutoML的Embedding框架AutoDim

密歇根州立大学联合字节提出AutoEmb用于流式推荐

深度学习在CTR预估中的应用

伊利诺伊大学联合中科院提出动态图协同过滤算法DGCF(已开源)

加州大学提出对偶注意力RNN用于时间序列预估

宾大微软联合提出深层强化学习框架用于新闻推荐

中科大等提出深度注意力网络DAM用于捆绑推荐

浙大中科院微软等提出分层注意力网络SHAN用于序列推荐系统

加州大学提出时间间隔自注意力模型用于序列推荐(已开源)

普渡大学提出轻量级特征交互算法deeplight大幅加速ctr预估在线服务(已开源)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
密歇根州立大学联合京东提出深度强化学习算法DeepPage用于分页推荐

Deep Reinforcement Learning for Page-wise RecommendationsXiangyu Zhao, Long Xia, Liang Zhang,...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。