强化学习 值函数

Gt = Rt +  gamma * Rt+1  +  gamma^2 *Rt+2 , 对未来要加一个折现率, 未来预测值是有风险的,保守起见最好加个折扣。

状态St =s 的值为:

V(s) = E(Gt|St=s) , where Gt = Rt +  gamma * Rt+1  +  gamma^2 *Rt+2 + …

状态St=s,At=a时的值为:

Q(s,a) = E(Gt|St=s, At=a), where Gt = Rt +  gamma * Rt+1  +  gamma^2 *Rt+2 + …

 

on-policy TD算法:先从Q中(e-greedy)产生一个 S‘,A’, 刚开始可能是随机的。后边根据S,A的分布占比来生成一个新状态s’,a‘.利用更新

Q(S,A) = Q(S,A) + alpha* [R + gamma* Q(S’,A’) - Q(S,A)].利用策略生成的状态,动作,去更新新的Q值。 

 


off-policy TD算法:先在Q中(e-greedy)从S随机产生一个A,王更新

Q-learning中, 在生成情节中, 状态S和A是随机产生的, 而在网络更新中, 下一个状态选用了最优的A对应的状态S‘去更新。

 Q(S,A) = Q(S,A) + alpha* [R + gamma* maxQ(S‘,a) - Q(S,A)].

 

转载于:https://www.cnblogs.com/xinping-study/p/9049787.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值