总结
RL用在推荐系统上的simulator
细节
user model, document model, user-choice model(决定user response),agent向user推荐document
RecoGym也是一个类似的框架
整体架构
步骤:
- simulator请求user feature、document feature,并发给agent;
- agent根据user feature、document feature进行推荐,返回simulator推荐列表;
- user-choice model根据user feature、推荐列表,预估user response,并把user response发给simulator;
- simulator把response发给agent、user model(更新user state,如user interest等);