强化学习理解

状态价值函数:
表征当前状态的价值。
比如在下围棋时,当前局势的获胜几率。
马尔科夫决策过程:
未来仅依赖于当前状态而与历史状态无关。
即过去状态与未来状态条件独立。
衰减系数γ:
用来对未来的奖励做惩罚;
未来的100元奖励不如当前的100元奖励,未来的奖励会随着时间推移而消失。数学上,有了衰减系数,无需在乎将来太远的奖励(都被指数衰减掉了);
使用衰减系数,我们无需担心状态转移图存在无限循环;
未来的奖励不会提供直接收益;
目标策略函数:
行为的概率分布*行为价值函数 Q

贝尔曼方程:
将价值函数分解为=直接奖励+衰减后的未来奖励

动态规划:
如果概率P或者回报R完全已知,则可以用动态规划迭代地对问题进行求解。如果模型完全已知,则基于贝尔曼方程,可以直接用动态规划计算价值函数,并进行策略改进。包括策略评估、策略改进和策略迭代。

蒙特卡洛方法:
不需要对模型进行建模,但要求完整的一轮样本。通过完整一轮样本(过程)S1,A1,R2,…,St 来求经验回报。并且所有轮必须到达终态。
估计回报等于所有回报在每一轮衰减后的平均值和

时间差分方法:
不需要模型,也不需要完整的样本,而是从每轮的经验中学习。是对蒙特卡洛方法的改进,可以从不完整的一轮数据中学习,因而无须使任务执行到终止态。因此也叫提升法bootstrapping。主要是通过value estimation更新价值函数

MC与TD的对比:
MC方法依赖实际的奖励和完整的回报来

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值