[2017-JD] Deep Reinforcement Learning for List-wise Recommendations
论文地址
https://arxiv.org/pdf/1801.00209.pdf
主要思想:
1、一次推荐多个item
2、状态s 为之前用户动作果的N个item的顺序集合。
更新方法: 每次推荐之后, 将用户动作过的item放入其中。没有动作果的item相当于丢弃掉了。
3、动作a 为某次推荐的K个item。
比如在 t t t 时刻的动作 a = { a t 1 , a t 2 , . . . a t K } a=\{a_t^1, a_t^2, ... a_t^K\} a={
at1,at2,...atK}
问题
1、k变化的时候,网络结构需要调成,整个网络需要重训。
2、直接输出 k ∗ d i m ( w ) k*dim_(w) k∗dim(w) 的向量,这些向量的表达能力可能需要打个问号。准确性的评估方法?
3、使用 w 1 , w 2 , w 3 , . . . w_1, w_2, w_3,... w1,w2,