日常使用
文章平均质量分 65
夏天蓝车
这个作者很懒,什么都没留下…
展开
-
毕业论文【2】——DQN
算法的核心是数学和数据结构,手动模拟一遍算法,弄懂算法的内在含义,就能从里向外给关于此算法的内容加上“华丽的言词”。 开始正文了 接触DQN后,我的想法就是Q表格更新出大量样本,紧接着使用样本训练神经网络,待其收敛后,使用神经网络替代Q。 由于这种方式很好理解,一时间,它在我脑里根深蒂固,但我发现我和刘建平刘老师的算法步骤根本对不上,我反复阅读博客,读原paper,终究不得其解,急得我满头大汗,我甚至怀疑我自己了。 下午吃完饭前,在刘老师的博客评论里找到了我的救药,原来是我没弄懂DRL的真正含义!!原创 2021-03-08 20:08:55 · 557 阅读 · 4 评论 -
毕业论文【1】——Q-Learning
毕业论文选题是"强化学习在路径规划中的应用",就在博客中记录一下研究历程吧。 先学的是强化学习的经典算法——Q-Learning 看了这么多博客介绍,对Q-Learning算法也有了一定的认知。 我从国外一学生的个人博客中,找到了一篇关于Q-Learning的介绍和推导,大概发布于2010年左右,读完他的博客,我豁然开朗。 这位作者确实有很强的计算机思想,他告诉我,Q-Learning本质上是一个带权有向图据权值随节点移动的问题,如此重要的强化学习算法,背后原理却是最简单的“图”问题,正是这一点让我原创 2021-03-04 22:34:35 · 827 阅读 · 2 评论