强化学习和控制

在强化学习中,我们将提供一个奖赏函数,当目标完成的好时,便奖赏;当目标完成的不好时,就惩罚。鞭策算法走一条良好的道路。

马尔科夫决策过程(MDP)

一个Markov decision process是一个元组 (S,A,Psa,γ,R) 。其中:

  • S 是状态集。比如在自动直升机驾驶中, S 就是直升机的所有可能位置,方向。
  • A 是行动。比如所有你能控制直升机的方向。
  • Psa 是状态转移概率。对于每个状态 sS 每个行动 aA Psa 给出了当我们在状态 s 采取行动 a 时,我们将会转移到的状态的分布。
  • γ[0,1) 称为阻尼系数。
  • R:SA>RealNumber 叫做回报函数。

MDP的动态过程:从初始状态 s0 开始,采取行动 a0A ;MDP过程向前推进,按分布 s1Ps0a0 随机转换到下一个状态 s1 。以此类推,不断转换。用流程可以表示为:
s0>(a0)>s1>(a1)>s2>(a2)>...
定义其总花费:
R(s0,a0)+γR(s1,a1)+γ2R(s2,a2)+...
我们要做的是选择随时间变化的行动,来使得总花费的期望值最大:
max,E[R(s0,a0)+γR(s1

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值