强化学习之基本核心概念与分类

1.基本概念

  • States and Observations
    状态S可以完整地描述外部环境,观察O有可能会遗漏。如果O能够完整地观察S,就是环境就是完全可观察,否则就是部分可观察的

  • Action Spaces
    行动空间是所有可以的行动S组成的空间,可以是离散的,也可以是连续的。

  • Policies
    策略可以是确定性的,一般表示为μ,也可以是随机的,一般表示为π。

  • Rewards
    强化学习中Agent的目标是累积获得最多奖励,一般来说奖励是随着运动轨迹衰减的。从直观上来说,未来的奖励肯定没有现在的奖励好,从数学上来说无衰减约束的奖励可能带来无法收敛的问题。

值函数是对应状态上开始行动,按照某个策略运行下去,最终期望能够获得的奖励。值函数有两个V函数(值函数)和Q函数(行动-值函数),两者的区别是Q函数需要指定执行一个行动a。

MDP过程

MDP就是用来描述RL中的环境,未来只与当前的状态有关,与之前的历史没有关系。MP是一个随机过程。从现在状态 S下一个状态 S' 通过Pss' 状态转移概率矩阵(State transition probability matrix)来完成这个过程奖励R是环境的反馈,有了R,有了S,有了Pss' 矩阵,实际上我们就能够估算出每一个S上的Gt:E(Gt|St = S)。

在Q learning中,这就是衰减系数。这个估算出来的Gt就叫做这个状态S上的Sate Value function(状态值函数): v(S)。

MDP则是指马尔可夫决策过程,决策就是在策略policy之后采取的行动。策略也是一个概率分布,体现了在给定状态下采取行动的概率。

Value Function(值函数)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值