Q-Learning理论推导【学习笔记2】

Q-Learning理论推导

假如我们小时候放学回家写作业,会获得价值为1的奖励,而如果去看电视那么会受到值为2的惩罚。

假如我们在第一时刻采取了写作业这个动作,那么我们的效益Q是1;接下来我们不会去立马进行第二个动作,而是想象在接下来采取的哪一个动作的效益Q更大,比如说我们在第二步继续采取写作业这个动作,那么效益Q是1 + 1 > 1 - 2。

所以我们把最大的值乘以一个衰减值γ,比如0.9,并且加上到达第二步时获得的奖励R:

//我们把最大的值乘以一个衰减值γ
//但是我们还未写完作业,所以奖励R为0;
//因为会获得实实在在的奖励,所以我们把以上等号右边的值作为第一步的现实值
Q(s1)现实 = R + γ * maxQ(s2)

//但是我们估计了第一步的值是1
Q(s1)估计 = 1

//所以现实和估计之间有了差距:
差距 = Q(s1)现实 - Q(s1)估计
//将这个差距乘以一个学习效率α,累加上原来的值,就可以得到一个新的值:
新Q = 老Q + α * 差距

//推导:
Q(s,a) = Q(s,a) + α((r + γ * maxQ(s',a')) - Q(s,a))
Q(s1) = r2 + γ * Q(s2)
	  = r2 + γ * (r3 + γ * Q(s3))
    ......
      = r2 + γ * r3 + γ^2 * r4 + .....γ^n-2 * rn
//Q(s1)包括之后每一步的所有奖励,但是这些奖励都在衰减,离第一步越远衰减越严重
当γ等于1时,能看到以后所有的奖励:
Q(s1) = r1 + r2 + r3 ... + rn
当γ等于0时,只能看到眼前的奖励:
Q(s1) = r2
当r从0 → 1
那么将会对远处的价值看得更清楚,逐渐变得有远见
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Alan_Lowe

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值