RL -数学基础及环境

本文介绍了强化学习的基础概念,包括马尔科夫性质、马尔可夫决策过程(MDP)及其组成四元组。讨论了确定性和随机性策略,以及价值函数的作用,如状态价值函数V(s)和动作价值函数Q(s,a)。解释了数学期望和累积奖励的概念,并阐述了贝尔曼方程在状态价值函数中的应用。最后,提出了强化学习求解最优策略的方法,如动态规划、蒙特卡洛和时间差分法。" 107580873,9911328,"递归与while输入法解题解析:Life, the Universe, and Everything
摘要由CSDN通过智能技术生成

1.1马尔科夫性质:
在时间t+1时,环境的反馈仅取决于上一时间步t的状态s和动作a,与时间t-1以及t-1步之前的时间步都没有关联。由此可知 马尔科夫性具有无后效性。即系统的下一状态只与当前状态有关。
1.2马尔可夫决策过程
有一个四元组组成
价值v:
智能体在策略下所获得的的累积奖励的期望
策略:
确定性策略:a=π(s),表示策略根据状态s选择动作a,这是一个确定性的过程,即中间没有出现概率,因此不需要选择,。其中策略表示为函数。
**随机性策略:**π(s,a),表示策略在状态s下选择动作a的概率,其扩展公式为π(s,a)=P[at=a|st=s],策略通过概率表示。
1.3 价值函数
执行到某一步是如果要评估当前智能体在该时间步状态的好坏程度,主要有价值函数来完成。
状态价值函数V(s):是对未来奖励的预测,表示在该状态s下,执行动作a的到的期望奖励。
v(s)=E[Gt | st = s]
**动作价值函数:**主要用来评估当前智能体在状态s选择动作a的好坏程度,用q(s,a)表示,与状态价值函数的区别在于动作价值函数考虑了在当前时间步执行动作a所带来的的影响。
q(s,a) = E [Gt| st=s,at=a]
总之价值函数最后的计算结果是一个期望数值

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值