毕业论文【1】——Q-Learning

毕业论文已经选好题目了,这里记录下研究历程。

先学的是强化学习的经典算法——Q-Learning

看了这么多博客介绍,对Q-Learning算法也有了一定的认知。

我从国外一学生的个人博客中,找到了一篇关于Q-Learning的介绍和推导,大概发布于2010年左右,读完他的博客,我豁然开朗。

这位作者确实有很强的计算机思想,他告诉我,Q-Learning本质上是一个带权有向图据权值随节点移动的问题,如此重要的强化学习算法,背后原理却是最简单的“图”问题,正是这一点让我对他很钦佩。

可是他在2013年后就不再更新博客,还是挺遗憾的,据他个人介绍,他是自学的人工智能算法,看来他是毕业了,没有时间和精力再去学习和写博客了。

但是他的文章给了我很大的启迪,感谢他!

 

记录一下Q-Learning的一些问题:

  • 状态之间的权值 = (1 - alpha)*状态之间的权值 + alpha*(当前奖励 + gamma*远期奖励)

 

  • 这里把 远期奖励*gamma 是因为考虑到每行动一次,就会消耗一次步数,这样设置,旨在在有左右两条通往出口的路中,选择最近的一条。
  • gamma值越小,每一步的损失就越大,就越能选择最近的一条路。

 

  • 关于设置学习率alpha,保留当前(1 - alpha)的Q值,剩余alpha更新为新值。
  • alpha的含义可以近似理解为“记忆奖励的保留度”,
  • 经过我数学公式推导,可以证明,当alpha置为1时,即最大学习率时,不参考“记忆奖励”,此时无论左右通路走多少次,两条路的权值是恒定的,Q表格在最后会收敛为一稳定值表。
  • 当alpha置小数时,智能体会参考"记忆奖励",左右通路的权值会随着通过次数的增加而增大,最后可能会出现这样不理想的情况:a,b两通路中,a最近,但是b走的次数多,最后导致Wb > Wa,智能体避过最近路径Wa,而选择通过次数最多的Wb。
  • alpha值越小,学习速率越慢,参考"记忆奖励"的程度就越大,越容易选择走过次数较多的通路(可能不是最近的)

Q-Learning再复习:

Q(s,a)在图的含义就是一条有向边的权值,但在agent眼里有了更深奥的含义:agent处于状态s,有众多action可供选择,Q(s,a[i])就代表了执行动作a[i]的最终累加奖励,换一句不严谨的说辞,Q(s,a[n])是agent的未来决策表,通过它能看到未来的所有奖励,那怎么获取最终的累加奖励?使用贪婪策略不断选择,直至结束!

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值