强化学习框架总结

在这里插入图片描述1设置,重新经历

强化学习 (RL) 框架包含学习与其环境互动的智能体。
在每个时间步,智能体都收到环境的状态(环境向智能体呈现一种情况),智能体必须选择相应的响应动作。一个时间步后,智能体获得一个奖励(环境表示智能体是否对该状态做出了正确的响应)和新的状态。
所有智能体的目标都是最大化预期累积奖励,或在所有时间步获得的预期奖励之和。

2阶段性任务与连续性任务

任务是一种强化学习问题。

连续性任务是一直持续下去、没有结束点的任务。

阶段性任务是起始点和结束点明确的任务。
    在这种情况下,我们将一个完整的互动系列(从开始到结束)称为一个阶段。
    每当智能体抵达最终状态,阶段性任务都会结束。

3奖励假设

奖励假设:所有目标都可以构建为最大化(预期)累积奖励。

4目标和奖励

(请参阅第 1 部分和第 2 部分,以查看在现实问题中如何指定奖励信号的示例。)

5累积奖励

在时间步 ttt 的回报是 Gt:=Rt+1+Rt+2+Rt+3+…
智能体选择动作的目标是最大化预期(折扣)回报。(注意:折扣将在下部分讲解。)

6折扣回报

在时间步 t 的折扣回报是 Gt:=Rt+1+γRt+2+γ2Rt+3+。
折扣回报 γ是你设置的值,以便进一步优化智能体的目标。
    它必须指定 0≤γ≤1。
    如果 γ=0,智能体只关心最即时的奖励。
    如果 γ=1,回报没有折扣。
    γ的值越大,智能体越关心遥远的未来。γ 的值越小,折扣程度越大,在最极端的情况下,智能体只关心最即时的奖励。

7MDPs和一步动态特性

状态空间S是所有(非终止)状态的集合。
    在阶段性任务中,我们使用S+表示所有状态集合,包括终止状态。
动作空间A是潜在动作的集合。 (此外,A(s)是指在状态s∈S的潜在动作集合。)
(请参阅第 2 部分,了解如何在回收机器人示例中指定奖励信号。)
环境的一步动态特性会判断环境在每个时间步如何决定状态和奖励。可以通过指定每个潜在 s′,r,s,and a的 p(s′,r∣s,a)≐P(St+1=s′,Rt+1=r∣St=s,At=a)定义动态特性。
一个(有限)马尔可夫决策过程 (MDP) 由以下各项定义:
    一组(有限的)状态 S(对于阶段性任务,则是 S+)
    一组(有限的)动作 A
    一组奖励R
    环境的一步动态特性
    折扣率 γ∈[0,1]
  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智能学习者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值