毕业论文【1】——Q-Learning

最新推荐文章于 2022-10-19 10:28:07 发布

夏天蓝车

最新推荐文章于 2022-10-19 10:28:07 发布

阅读量770

点赞数

分类专栏：日常使用

本文链接：https://blog.csdn.net/weixin_42447161/article/details/114379000

版权

日常使用专栏收录该内容

2 篇文章 0 订阅

订阅专栏

毕业论文已经选好题目了，这里记录下研究历程。

先学的是强化学习的经典算法——Q-Learning

看了这么多博客介绍，对Q-Learning算法也有了一定的认知。

我从国外一学生的个人博客中，找到了一篇关于Q-Learning的介绍和推导，大概发布于2010年左右，读完他的博客，我豁然开朗。

这位作者确实有很强的计算机思想，他告诉我，Q-Learning本质上是一个带权有向图据权值随节点移动的问题，如此重要的强化学习算法，背后原理却是最简单的“图”问题，正是这一点让我对他很钦佩。

可是他在2013年后就不再更新博客，还是挺遗憾的，据他个人介绍，他是自学的人工智能算法，看来他是毕业了，没有时间和精力再去学习和写博客了。

但是他的文章给了我很大的启迪，感谢他！

记录一下Q-Learning的一些问题：

状态之间的权值 = (1 - alpha)*状态之间的权值 + alpha*(当前奖励 + gamma*远期奖励)

这里把远期奖励*gamma 是因为考虑到每行动一次，就会消耗一次步数，这样设置，旨在在有左右两条通往出口的路中，选择最近的一条。
gamma值越小，每一步的损失就越大，就越能选择最近的一条路。

关于设置学习率alpha，保留当前(1 - alpha)的Q值，剩余alpha更新为新值。
alpha的含义可以近似理解为“记忆奖励的保留度”，
经过我数学公式推导，可以证明，当alpha置为1时，即最大学习率时，不参考“记忆奖励”，此时无论左右通路走多少次，两条路的权值是恒定的，Q表格在最后会收敛为一稳定值表。
当alpha置小数时，智能体会参考"记忆奖励"，左右通路的权值会随着通过次数的增加而增大，最后可能会出现这样不理想的情况：a，b两通路中，a最近，但是b走的次数多，最后导致Wb > Wa，智能体避过最近路径Wa，而选择通过次数最多的Wb。
alpha值越小，学习速率越慢，参考"记忆奖励"的程度就越大，越容易选择走过次数较多的通路(可能不是最近的)

Q-Learning再复习：

Q(s,a)在图的含义就是一条有向边的权值，但在agent眼里有了更深奥的含义：agent处于状态s，有众多action可供选择，Q(s,a[i])就代表了执行动作a[i]的最终累加奖励，换一句不严谨的说辞，Q(s,a[n])是agent的未来决策表，通过它能看到未来的所有奖励，那怎么获取最终的累加奖励？使用贪婪策略不断选择，直至结束！

夏天蓝车

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
毕业论文【1】——Q-Learning

毕业论文选题是"强化学习在路径规划中的应用"，就在博客中记录一下研究历程吧。先学的是强化学习的经典算法——Q-Learning看了这么多博客介绍，对Q-Learning算法也有了一定的认知。我从国外一学生的个人博客中，找到了一篇关于Q-Learning的介绍和推导，大概发布于2010年左右，读完他的博客，我豁然开朗。这位作者确实有很强的计算机思想，他告诉我，Q-Learning本质上是一个带权有向图据权值随节点移动的问题，如此重要的强化学习算法，背后原理却是最简单的“图”问题，正是这一点让我
复制链接

扫一扫