强化学习
mlxaaa
这个作者很懒,什么都没留下…
展开
-
强化学习从入门到放弃(二)Q-learning 与 Sarsa
Q-Learning 与 Sarsaq-learning 与sarsa都是model free情况下通过 TD求解的Bellman equation的方法。他们的区别是q-learning是off-policy的,sarsa是on-policy的。公式对比Sarsa:Q-learning:二者的区别:网上都在说sarsa是一个保守的算法,而q-learning是一个更价激进的算法,这是为什么呢?Sarsa是一个说到做到的算法,Q(s,a)Q(s,a)Q(s,a)的估计值与下一个状态S‘原创 2020-08-06 23:29:28 · 416 阅读 · 0 评论 -
强化学习从入门到放弃(一)基本数学模型MDP
强化学习最本质的数学模型,MDP强化学习的本质其实就是一个马尔可夫决策过程(MDP),在一个,MDP中最关键的一个公式就是bellman equation:下面说的是在一个没有action的MRP过程中,一个状态的价值v(s)v(s)v(s)与当前状态的奖励R(s)R(s)R(s) 和此状态的转移状态V(s′)V(s')V(s′)有关。对于Bellman equation有三种求解方式:DP,需要知道状态之间的转移概率Monte-Carlo,蒙特卡洛其实就是不断采样尝试,直到收敛Tempo原创 2020-08-06 22:48:26 · 1818 阅读 · 0 评论 -
强化学习---Q-learning的理解
强化学习的数学模型强化学习本质上是一个马尔可夫决策过程(MVP)。在一个初始状态S下通过一系列动作集合 A下的决策,找到决策过程中的最优解。RL训练的过程就是不断的进行尝试并记录之前的决策过程,在一此决策的过程中较大概率的选择记录表中分数较大的动作,这个就是Q-learning算法,最终训练出来的表就是Q值表。举个栗子走迷宫:任务描述:红块从左上角开始走到黄圈代表天堂即为成功,黑块代表地狱走进去就是失败。问题分析:如果不从增强学习的角度,这道题其实直接用dfs或者bfs就可以求解。所以用R原创 2020-07-30 23:49:22 · 586 阅读 · 0 评论