Deep Reinforcement Learning for Page-wise Recommendations
Xiangyu Zhao, Long Xia, Liang Zhang, Zhuoye Ding, Dawei Yin, Jiliang Tang
Michigan State University, JD.com
https://www.cse.msu.edu/~zhaoxi35/paper/recsys2018.pdf
推荐系统可以通过推荐个性化商品来缓解信息过载问题。在电子商务等真实推荐场景中,系统和用户的交互一般是推荐一页商品给到用户,用户给出反馈,然后系统推荐新的一页商品。
为了更有效的捕捉这种交互行为进而更好的推荐商品,需要解决两个关键问题,其一即为根据用户实时反馈来更新推荐策略,其二即为通过适当的形式来生成一页商品,这对于传统推荐系统挑战性非常大。
这篇文章研究分页式推荐问题,旨在解决同时解决上面两个挑战。具体而言,作者们提出一种原理性方法,联合生成互补的商品集合,同时生成相应的策略在二维页面中展示这些商品。提出一种新的基于深层强化学习的分页式推荐框架,DeepPage,这种框架基于用户的实时反馈来优化一页商品,同时适当的展示这些商品。
在真实电子商务数据集上的实验结果表明作者们所提框架的有效性。
推荐系统与用户的交互流程图示如下
这篇文章的主要贡献如下
强化学习的五大要素简介如下
几种框架结构对比图示如下
作者们采用的框架为actor-critic框架
作者们提出的actor可以解决下面三个挑战性问题
初始状态生成的encoder框架简介如下
初始状态生成的encoder框架图示如下
产生实时状态的encoder结构图示如下
生成action的解码过程简介如下
这篇文章所提框架图示如下
线上训练所依赖的mapping 算法伪代码如下
利用DDPG的DeepPage在线训练算法伪代码如下
DeepPage在线测试算法伪代码如下
DeepPage离线测试算法伪代码如下
实验中的数据集简介、分割、参数设置、模型指标等简介如下
几种方法的效果对比如下
线上测试场景中,几种方法效果对比如下
为了测试各个组件的作用,作者们还测试了去除各个组件之后的效果,结果如下
我是分割线
您可能感兴趣
诺亚方舟实验室提出数值特征自动离散框架AutoDis用于CTR预估
密歇根州立大学联合领英提出基于AutoML的Embedding框架AutoDim