GRN: Generative Rerank Network for Context-wise Recommendation

总结

generator: GRU,policy gradient优化,self reward + differential reward,从粗排到精排
evaluator: bi-lstm+self-attention,交叉熵损失,对final list做rank

细节

generator
在这里插入图片描述
把gru当作一个policy,reward有2部分:self reward + differential reward。
self reward
r s e l f ( x o t ∣ u , O ) = E ( x o t ∣ u , O ; Θ E ) r^{self}(x_o^t | u, O) = E(x_o^t | u, O; \Theta^E) rself(xotu,O)=E(xotu,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值