强化学习
文章平均质量分 89
_Epsilon_
这个作者很懒,什么都没留下…
展开
-
强化学习笔记(七)演员-评论家算法(Actor-Critic Algorithms)及Pytorch实现
强化学习笔记(七)演员-评论家算法(Actor-Critic Algorithms)及Pytorch实现接着上一节的学习笔记。上一节学习总结了Policy Gradient方法以及蒙特卡洛Reinforce实现。这节了解一下Actor-Critic算法。Actor-Critic是2000年在NIPS上发表的一篇名为Actor-Critic Algorithms的论文中提出的。它是一种策略(Policy Based)和价值(Value Based)相结合的方法,见UCL第七讲的开篇PPT(下图)第一个是原创 2020-07-25 10:41:58 · 13646 阅读 · 23 评论 -
强化学习笔记(六)策略梯度法(Policy Gradient)及Pytorch实现
强化学习笔记(六)策略梯度法(Policy Gradient)Q1:Policy-Based方法相比Value-Based的优劣在哪?Q2:如何直观地理解Policy-Based模型?这节对应UCL课程第七讲。之前所学习的方法都是Value-Based,算是一种间接方法。我们先算出价值函数,再去做决策。我们使用的策略都是确定性策略,类似一条路走到黑。在面对一个确定的状态时,我们会采用动作价值函数最大的动作,而不会考虑其它,即π(a∣s)=1\pi(a|s)=1π(a∣s)=1。而Policy-Based是原创 2020-07-20 17:11:19 · 6606 阅读 · 16 评论 -
强化学习笔记(五)Pytorch实现简单DQN
强化学习笔记(五)价值函数的近似(Value Function Approximation)Q1:值函数近似的形式和意义?Q2:梯度下降法公式中的真值Vπ(s)V_{\pi}(s)Vπ(s)和qπ(S,A)q_{\pi}(S,A)qπ(S,A)是如何处理的?Q3:如何理解DQN中的经验回放(Experience Relay)机制?表格型的近似求解方法只适用于低规模的问题。对于复杂庞大状态-动作空间的问题,我们不可能有足够的内存去存放和维护这样一个Q_Table. 因此强化学习和深度学习的结合是发展历程原创 2020-07-17 18:18:49 · 4711 阅读 · 3 评论 -
强化学习笔记(四)无模型控制(Model-Free Control)
强化学习笔记(四)无模型控制(Model-Free Control)Q1: On-Policy和Off-Policy的区别?UCL课程第五讲主要内容是On-Policy MC, On-Policy TD(SARSA), Off-Policy TD(Q-Learning). 首先回顾策略迭代方法,讲解ϵ−greedy\epsilon-greedyϵ−greedy的函数意义,之后讲了这三种控制方法。Q1: On-Policy和Off-Policy的区别?On-Policy一直使用一个策略来更新价值函数和原创 2020-07-14 19:44:21 · 2343 阅读 · 0 评论 -
强化学习笔记(三)无模型预测(Model-Free Prediction)
强化学习笔记(三)无模型预测(Model-Free Prediction)Q1:对修正公式的理解?为什么使用α\alphaα因子比1/N(S)1/N(S)1/N(S)效果更好?使用计数器不是会更精准吗?Q2:TD法比MC法效率更高、效果更好的原因?Q3:TDTDTD(λ\lambdaλ)为什么要用到几何加权而不是别的手段?Q4:为什么λ=0\lambda=0λ=0变成时序差分法,λ=1\lambda=1λ=1变成蒙特卡洛法?动态规划法求解MDP时通过两个步骤进行迭代求解:状态评估和策略优化。也就是说我们面原创 2020-07-12 22:47:43 · 1791 阅读 · 0 评论 -
强化学习笔记(二)动态规划法求解MDP
强化学习笔记(二)动态规划法求解MDPQ1:策略迭代和价值迭代的区别在哪?附:GridWorld游戏的MATLAB代码在MDP的内容中已经证明了一定存在best policy,并且递推公式是最终收敛到best policy的。那么动态规划是一个比较直观求解MDP的方法。我对于Dynamic Programming不是很了解,也没有刷过Leetcode的题目。很多文章在讲解的时候提到了“分治”,“递推/递归”,“子问题”等思想。个人比较粗糙地理解就是类似数值分析中的迭代,若我们有一个k步到k+1步的递推关系原创 2020-07-10 23:51:35 · 1254 阅读 · 0 评论 -
强化学习笔记(一)马尔可夫决策过程
强化学习笔记(一)马尔可夫决策过程参考资料正文Q1: RtR_{t}Rt, GtG_{t}Gt, V(St)V(S_{t})V(St)都有奖励或收获的含义,它们有什么区别?Q2:为什么GtG_{t}Gt使用那样的衰减公式?Q3:贝尔曼方程的作用?Q4:π(a∣s)\pi(a|s)π(a∣s)和Pss′aP_{ss'}^{a}Pss′a的区别?Q5: Vπ(s)V_\pi(s)Vπ(s)和qπ(s,a)q_\pi(s,a)qπ(s,a)的关系?Q6: 不同的策略产生不同的Vπ(s)V_{\pi}原创 2020-07-06 23:26:15 · 1796 阅读 · 0 评论