设计推荐模型的要素:
1.可获取的输入
2.明确输出
首先第一点,用户的历史记录可用作输入,只需将不同长度的用户浏览记录处理成相同大小的数据。
第二点,输出类别表示、价格表示还是物品表示?考虑先输出物品价格作为实验,因为价格可处理为回归单值,简单。
若输出物品类别表示,则需要1600多个类别表示,也可将类别处理为emb,可进一步降低输出维度和训练难度,同样物品也是。
模型实现:
采用较为成熟的actor-critic强化框架,将推荐模型作为actor,用来生成推荐结果,设计critic计算动作的长期收益,此处有一个问题,就是在模拟流中,critic 的动作是actor产生还是真实日志的动作?