DEAR: Deep Reinforcement Learning for Online Advertising Impression in Recommender Systems

文章目录

总结

dqn,在线学习

细节

由DQN判断是否应该在推荐序列中加入广告,并且给出最佳广告、广告出现的最佳位置

states: 用户的推荐历史和广告历史,contexutal info等
action: a t = ( a t a d , a t l o c ) a_t = (a_t^{ad}, a_t^{loc}) at=(atad,atloc)
reward: r t ( s t , a t ) = r t a d + α r t e x r_t(s_t, a_t)=r_t^{ad}+\alpha r_t^{ex} rt(st,a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值