文章目录 总结 细节 实验 总结 dqn,在线学习 细节 由DQN判断是否应该在推荐序列中加入广告,并且给出最佳广告、广告出现的最佳位置 states: 用户的推荐历史和广告历史,contexutal info等 action: a t = ( a t a d , a t l o c ) a_t = (a_t^{ad}, a_t^{loc}) at=(atad,atloc) reward: r t ( s t , a t ) = r t a d + α r t e x r_t(s_t, a_t)=r_t^{ad}+\alpha r_t^{ex} rt(st,a