[2017-JD] Deep Reinforcement Learning for List-wise Recommendations

该博客探讨了如何运用深度强化学习进行列表级推荐,指出推荐多个item时的状态和动作表示,以及网络结构调整的挑战。文章介绍了Actor-Critic框架,并详细阐述了在线用户代理交互环境模拟器的r计算方法,旨在模拟线上用户反馈。
摘要由CSDN通过智能技术生成

论文地址

https://arxiv.org/pdf/1801.00209.pdf

主要思想:

1、一次推荐多个item

2、状态s 为之前用户动作果的N个item的顺序集合。
状态定义
更新方法: 每次推荐之后, 将用户动作过的item放入其中。没有动作果的item相当于丢弃掉了。

3、动作a 为某次推荐的K个item。
Action Space
比如在 t t t 时刻的动作 a = { a t 1 , a t 2 , . . . a t K } a=\{a_t^1, a_t^2, ... a_t^K\} a={ at1,at2,...atK}

问题

1、k变化的时候,网络结构需要调成,整个网络需要重训。
2、直接输出 k ∗ d i m ( w ) k*dim_(w) kdim(w) 的向量,这些向量的表达能力可能需要打个问号。准确性的评估方法?
3、使用 w 1 , w 2 , w 3 , . . . w_1, w_2, w_3,... w1,w2,

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
多智能体深度强化学习,用于群组分发中的任务卸载。 多智能体深度强化学习是一种强化学习的方法,可以应用于群组分发中的任务卸载问题。在群组分发中,有多个智能体,每个智能体都拥有一定的处理能力和任务需求。任务卸载是指将任务从一个智能体卸载到其他智能体上进行处理,以实现任务优化和系统性能的提升。 多智能体深度强化学习通过使用深度神经网络来构建智能体的决策模型,并基于强化学习框架进行智能体的训练和决策制定。在任务卸载中,每个智能体的状态可以由其当前的任务负载、处理能力和通信延迟等因素来表示。智能体的动作则是选择是否将任务卸载到其他智能体上进行处理。通过与环境交互,智能体可以通过强化学习来调整其决策策略,以优化任务卸载过程中的系统性能。 在多智能体深度强化学习中,可以使用任务奖励来指导智能体的行为。例如,当一个智能体选择将任务卸载给处理能力更高的智能体时,可以给予奖励以鼓励这种行为。同时,如果任务卸载导致较高的通信延迟或任务负载不均衡等问题,可以给予惩罚以避免这些不良的决策。 通过多智能体深度强化学习,可以实现群组分发中的任务卸载优化。智能体可以通过学习和适应来提高系统的整体性能和效率,从而实现任务分配的最优化。这种方法可以应用于各种领域,例如云计算、物联网和机器人协作等多智能体系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值