强化学习
文章平均质量分 90
weixin_42001089
算法让生活更美好
展开
-
Reinforcement Learning(强化学习)Sarsa/Q_learning
在说这两种算法之前,先说一下: 蒙特卡罗的方法(MC)和动态规划的方法(DP) 蒙特卡罗方法利用经验平均估计状态的值函数即: 这里的是状态后直到终止状态所有回报的返回值,也就是要得到实验结束才可以进行更新,这样的话太慢。 动态规划说的是可以用后继状态的值函数来估计当前的值函数即 这里的和如果有模型的话就可以根据当前的通过一个策略(这个策略在强化学习中一般就是选取具有最大奖励值...原创 2018-08-05 10:51:46 · 2142 阅读 · 0 评论 -
DRL---------DQN详解
总结一下DQN. 在传统的强化学习中,例如Q_learning以及Sarsa都需要一张由状态S以及行为A组成的Q表,行为的种类一般较少,比如常见的前进后退两种或上下左右四种等,也就是Q表的列一般还好,可是状态的话就不一定了,有些场景的状态多到可怕,就比如围棋等等,也就是Q表的行数过多,导致的结果就是难以维护如此大的一张Q表。 现在假设有一个函数 f(x) 如果输入状态S就可以得到每个行为的Q...原创 2018-08-06 18:31:43 · 6711 阅读 · 2 评论 -
DRL------------Poilcy Gradients
继上篇的DQNhttps://blog.csdn.net/weixin_42001089/article/details/81448677之后,这里说一下PG(Poilcy Gradients),它是DRL另一大家族,先来谈一下它出现的背景。 这要追溯到DQN的来源,DQN的出现是因为有些场景状态数过多导致Q表行数过大,为了解决这一问题即通过神经网络近似了Q值函数(value function)...原创 2018-08-08 08:58:01 · 654 阅读 · 0 评论 -
DRL---------------Actor-Critic/DDPG
从名字就可以看出其是PG(关于什么是PG,可以参看https://blog.csdn.net/weixin_42001089/article/details/81478628)的升级版 首先说一下Actor-Critic(AC),之前所说的PG是在一个游戏回合结束之后才更新PG中DL的网络参数的。而AC主要就是看不惯这一点,他就是要改变这一现状,即实现单步更新的壮举。还有一点就是输出的不再是一些...原创 2018-08-08 18:42:57 · 4475 阅读 · 3 评论