[RL] 3 Finite Markov Decision Processes (1)

  最近在学习Reinforcement Learning,参考sutton老爷爷的教材。由于最近需要在组内分享一下第三章,所以先写了这篇博客,前面两章之后补上吧。

The Agent-Environment Interface

  • agent : 学习者和决策者。
  • environment : 与agent交互、在agent外部的所有。

  agent与environment持续地交互,agent选择actions(动作),environment对这些actions做出反馈,返回给agent一个新的situation(状态),并给出reward(回报)。agent需要做的就是使最终的reward最大化。

agent-environment之间的交互
图1 agent-environment之间的交互

Environment的完整定义,包括reward如何决定、task如何定义,亦即增强学习问题的实例如何定义。

图1的一些具体解释:
agent与environment之间的交互是离散地分步进行的,t = 0, 1, 2, 3, …(尽管t也可以是连续的,为了简化问题,我们采用离散时间)
在每一步t,agent会从environment获得当前state, StS S 是所有可能状态的集合
基于 St ,agent会选择一个action, AtA(St) A(St) 是状态 St 下所有可选action的集合
一步之后,agent得到一个数值化的reward, Rt+1RR ,以及新的状态, St+1

  在每一步,agent需要计算,在当前state下,选择各个action的概率, πt(a|s)=P

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值