qlearning
文章平均质量分 74
baozouxiaoxian
这个作者很懒,什么都没留下…
展开
-
Python强化学习,基于gym的马尔可夫决策过程MDP,动态规划求解,体现序贯决策
决策的过程分为单阶段和多阶段的。单阶段决策也就是单次决策,这个很简单。而序贯决策指按时间序列的发生,按顺序连续不断地作出决策,即多阶段决策,决策是分前后顺序的。序贯决策是前一阶段决策方案的选择,会影响到后一阶段决策方案的选择,后一阶段决策方案的选择是取决于前一阶段决策方案的结果。学习过程中最典型的例子就是非线性二级摆系统,每个状态下都需要决策车的方向及力的大小。更著名的例子就是AlphaGo。强化学习要解决的就是序贯决策问题,它不关心输入是什么样的,也不需要带有标签的样本,只关心当前状态下应该采取什么原创 2021-08-18 18:48:22 · 1708 阅读 · 0 评论 -
Python强化学习实例,基于上一篇自主寻优,QLearning算法实现序贯决策,迷宫代码
序贯决策是时间序列中,多个阶段需要连续决策,决策是分前后顺序的,前一步的选择直接影响后一步的选择,就像走迷宫一样,走错一步,可能后续就到了死胡同。上一篇笔记已经了解了一些基本概念。这一篇举一个实例。QLearning算法是一种强化学习中的异策略算法。所谓异就是action的策略使用贪婪策略,即选择的结果就是值最大的action,或者说最优的action。而状态行为(state_action)的策略是epsilon贪婪策略,这是在贪婪策略中加入了一个修正epsilon,相当于增加了一个探索利用。这导致每次选原创 2021-08-21 11:33:09 · 1875 阅读 · 2 评论