强化学习笔记1

参考资料:

1) David Silver的强化学习视频

2) Sutton的Reinforcement Learning入门,第二版

3) Shangtong Zhang代码,地址:https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

对应了Sutton的书中的练习;

 

先是几个概念:

1,Agent 和Environment
Agent_and_Environment

在t时刻,

Agent执行A_{t},接收  O_{t}和奖赏R_{t}

Environment接收动作A_{t},释放O_{t+1}R_{t+1}

 

2,History和State

History是一个序列,而State是History的函数:

H&S

 

3, Reward和Returns

t时刻的Reward R_{t}是一个标量;

t时刻的Returns G_{t}定义为:

R&R

其中,0 \leqslant\gamma \leqslant1

\gamma接近于0的时候,只考虑未来一小段时间的Reward,这个G_{t}被看成是myopic的;

\gamma接近于0的时候,考虑了未来很长一段时间的Reward,这个G_{t}被看成是far-sighted的;

 

4, Policy ,Value Function, Model

Policy是Agent的行为,是state到action的映射,包括:

确定性策略:a = \pi(s)

统计策略:\pi(a | s) = P[A_{t} = a | S_{t} = s]

 

Value Function是对未来奖赏的预测,用来估计状态的好坏,继而选择要执行的动作,定义为:

4

 

Model预测Environment接下去将怎么做,Model由状态转移概率P和奖赏R组成,通常定义为:

5

 

5,对上面的流程画了个图,(model和value function是用来找最优策略的,看第6条)。

6,有model和无model

前面看出,如果知道了某个策略\pi对应的model,也就是知道了策略\pi对应的各种状态的转移概率P和奖赏R,可以直接求出值函数V_{\pi},利用V_{\pi}可以找到最优策略\pi_{*}后面的章节还能看出,在所有策略中,对于任意的状态S_{t} = s,这个最优策略\pi_{*}对应的值函数V_{\pi_{*}}(s)都是最大的。

但是,后面的章节会提到,绝大多数情况是无模型的,如何在无模型的情况下去估计值函数呢?看后续。

因此,强化学习的任务是:估计值函数,找最优策略。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值