阅读书籍
whf0608
网络
展开
-
2019年4月学习阅读书籍
强化学习阅读书籍概率论与数理统计(第四版)第十二章 随机过程及其描述第十三章 马尔可夫链概率论及其应用第1卷第15章 马尔可夫链第16章 有限马尔可夫链的代数处理马尔科夫链模型,算法及应用强化学习入门--从原理到实践第二章 马尔可夫决策过程马尔可夫过程马尔可夫奖励过程马尔可夫决策过程概率论与数理统计(第四版)第十二章 随机过程及其描述第十三章 马尔可夫链概率论及其应用第1卷第15章 马尔...原创 2019-04-09 21:56:14 · 151 阅读 · 0 评论 -
强化算法学习记录-1
以无人机避障为模拟场景使用一般算法解决避障问题,需要考虑计算所有可能的状态序列才可能得到最好的解,当状态较多时计算量迅速增长,并且不具备以往路线规划的经验即有可能重复计算。如Dijstra,Bellman-Ford可以将一些节点的计算信息存储起来,减少计算量。在小规模问题中可以表现的很好,在更大的规模问题中,存储量不断增加,搜索起来更加困难。在三维空间中状态增多,行为可能性变多,这些算法不能很...原创 2019-06-18 23:11:56 · 239 阅读 · 0 评论 -
强化算法学习记录-2
1.2Q-Learning算法Q-Learning算法是强化学习的一种方法,Q-Learning算法可以解决Dijkstra算法存在的一些问题。Q-Learning算法的步骤:Q-Learning算法的两个重要地方:一个是策略的选择。策略选择是符合一定的概率分布,策略的选择有多种方式。二是Q表的更新。在Dijkstra算法中也有一张状态值表,状态值的计算是由Dijkstra第一次...原创 2019-06-18 23:27:08 · 237 阅读 · 0 评论 -
强化算法学习记录-3
1.3Q-Learning算法的策略使用均匀概率选择行为使用方便但到训练的次数增加,均概率体现不出智能的性质。我们人类在做选择时,会先考虑经常使用的行为。之前发生的行为概率越高,选择的可能性越大。如果再某一个状态下,之前做过选择,应尽可能的选择奖励最高的行为,同时还要保持好奇心,对没有使用的行为要保持探索性。探索使可能性变多,有可能发现更好的策略,同时也给系统带来不确定性,我们无法预测将来会...原创 2019-06-18 23:32:19 · 235 阅读 · 0 评论 -
强化算法学习记录-4
1.3 多步Q-Learning算法Q-Learning一步步更新Q表,收敛速度慢,就是在当前状态下探测后序状态对当前状态的影响,若可以得到n步状态的评估,可以加速当前状态的收敛。修改Q(s,a)表的更新公式,从公式中可以看出来由原来的学习一步变成要学习n步,这n步才使用贪婪策略来预测未来n步每一步状态的行为进行学习,这样可以探索更远距离的状态对当前状态的影响,更利于对当前状态的评价,...翻译 2019-06-18 23:37:46 · 130 阅读 · 0 评论