强化推荐模型设计

本文探讨了设计推荐模型时的关键要素,包括利用用户历史记录作为输入,选择输出类别(价格回归或物品类别表示),以及使用actor-critic强化框架来生成推荐和评估效果。讨论了critic在模拟流中的动作来源问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

设计推荐模型的要素:

1.可获取的输入

2.明确输出

首先第一点,用户的历史记录可用作输入,只需将不同长度的用户浏览记录处理成相同大小的数据。

第二点,输出类别表示、价格表示还是物品表示?考虑先输出物品价格作为实验,因为价格可处理为回归单值,简单。

若输出物品类别表示,则需要1600多个类别表示,也可将类别处理为emb,可进一步降低输出维度和训练难度,同样物品也是。

模型实现:

采用较为成熟的actor-critic强化框架,将推荐模型作为actor,用来生成推荐结果,设计critic计算动作的长期收益,此处有一个问题,就是在模拟流中,critic 的动作是actor产生还是真实日志的动作?

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值