基本概念篇(三),强化学习基本概念小结

现在,总结一下我们前面介绍的相关内容:

首先,我们介绍了强化学习的八个基本要素,具体参见:基本概念篇(一),强化学习基本要素
其次,我们对强化学习的过程进行了描述,具体参见:基本概念篇(二),强化学习过程

具体来讲,强化学习可以描述成一个MDP(马尔科夫决策过程),即 M = { S , A , P , r , γ , τ } M=\left\{S,A,P,r,\gamma,\tau\right\} M={ S,A,P,r,γ,τ},这其中:
S S S 是状态集;
A A A 是动作集;
P P P 是状态转移矩阵;
r :    S × A → [ − R m a x , R m a x ] r:\;S\times A\rightarrow\left[-R_{max},R_{max}\right] r:S×A[Rmax,Rmax] 为实时环境奖励;
γ ∈ [ 0 , 1 ] \gamma\in\left[0,1\right] γ[0,1] 为折扣因子;
τ = ( s 0 , a 1 , s 1 , a 2 , s 2 , ⋯   , a T , s T ) \tau=\left(s_0,a_1,s_1,a_2,s_2,\cdots,a_T,s_T\right) τ=(s0,a1,s1,a2,s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值