马尔科夫决策过程,强化学习,深度强化学习,Q-learning 入门 一看就懂

  • 马尔科夫性:即无后效性,下一个状态只和当前状态有关而与之前的状态无关。
  • 马尔科夫过程:马尔科夫过程是随机过程的一种。可以理解为,在满足马尔科夫性质的条件下,状态与状态之间的转换过程即为马尔科夫过程。这个过程只有状态和状态转移概率,是不涉及动作的。
  • 马尔科夫决策过程:考虑了动作策略的马尔科夫过程,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关。
  • 强化学习:是依靠环境给予的奖惩来学习的,因此对应的马尔科夫决策过程还包括奖惩值
    这几者的区别详见:https://zhuanlan.zhihu.com/p/80884389
  1. 马尔科夫决策推荐两篇文章
  1. 强化学习及其经典算法——Q-learning(文章中结合了实例,容易理解)
  1. 强化学习如何解决问题以及适合解决什么样的问题?
  1. 从强化学习到深度强化学习(注意经验池和目标网路)
    深度强化学习(DRL) = 强化学习(RL) + 深度学习(DL)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值