【论文解析】QMIX: Monotonic Value Function Factorisation forDeep Multi-Agent Reinforcement Learning

强化学习是机器学习的一个分支,关注智能体如何在环境中通过试错学习最佳策略。这一概念受到心理学行为主义的启发,尤其体现在有机体对奖励和惩罚的反应上。马尔可夫决策过程(MDP)是描述这种学习过程的数学模型,其中智能体在不同状态下选择行动以最大化长期奖励。MDP的关键特性是状态之间的转移仅依赖于当前状态,不考虑历史状态。
摘要由CSDN通过智能技术生成

基础概念

强化学习(Reinforcement learning (RL)):

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。强化学习最早可以追溯到巴甫洛夫的条件反射实验,它从动物行为研究和优化控制两个领域独立发展,最终经Bellman之手将其抽象为马尔可夫决策过程 (Markov Decision Process,MDP)。

马尔可夫决策(Markov Decision Processes,MDPs):

MDPs 简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。

MDP 的策略完全取决于当前状态(Only present matters),这也是它马尔可夫性质的体现。

其可以简单表示为:

·

哈哈其实这篇我看的不大明白,就不放PPT和讲解视频误导大家了。

对了这篇可以在YouTube上搜到,直接搜论文名即可

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值