坚持学习 -- 强化学习(2)

Q-Learning

(1). 什么是Q-Learning :

Q-Learning是一种决策过程,选择潜在奖励大的行为。本次行为选择后,产生下一次状态。 

根据Q-table中的状态(s1,s2,s3...)选择相应的奖励值(R)较大的行为(a1,a2,a3...)。

(2). 此处有两个值需要注意:估计值和现实值。

        估计值: 当到达某一状态(s1),根据Q-table估计下一步的行为是奖励值较大的行为(a2)。也就是估计出的Q值是 Q(s1,a2)

        现实值: 由上一次的奖励值(R)加上本次Q-table中较大奖励值的行为(max Q(s2) )产生的影响。也就是现实中的Q值是 R + \lambda * maxQ(s2)

         两者之间的 差距 = 现实值 - 估计值

(3). 通过这个上一次的Q值和这次产生的差距值计算出新的Q值:

New Q(s1,a2)  =  Old Q(s1,a2)  +  \alpha*差距值            (其中\alpha是学习效率) 

New Q(s1,a2)  =  Old Q(s1,a2)  +  \alpha*  [  ( R + \lambda * maxQ(s2) )  -   Q(s1,a2)  ]       

 

(4). Q-Learning的算法:

 (5). 算法中的参数意义:

\varepsilon-greedy :用在决策上的一种策略。 例如 \varepsilon = 0.9,说明有90%的可能按照Q-table中的最优值选择行为,10%的可能性随机产生行为。

\alpha : 是学习效率。决定本次的误差有多少需要学习。(\alpha < 1) 

\gamma : 是未来奖励的衰减值。

       因为s1可以转化为以下公式:

    继而便可知,s1可以用之后的每一个奖励值组合表示

 

     但是越往后奖励值的分量就越轻。

 

 详细信息请查看莫烦Python: https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/intro-q-learning/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值