强化学习
文章平均质量分 74
唠叨小主
这个作者很懒,什么都没留下…
展开
-
强化学习思维导图
强化学习/RLDP算法model-basedMC算法model-freeTD算法model-free基于价值迭代的RLSARSA算法 on-policy TD Control Q-learning 问题1:面对动作数量较多,状态空间较大的问题,计算困难 解决方法:DQN 算法 存在的问题:Q值过高估计 原因:你总是会选那个被高估的 Q 值,你总是会选那个 reward 被高估的动作当作这个 max 的结果去加上 rt 当..原创 2021-06-29 16:37:24 · 1032 阅读 · 0 评论 -
强化学习总结(一):算法考点总结(简答题)
DP算法MC算法蒙特卡罗就是说当得到一个MRP过后,我们可以从某一个状态开始,产生一个轨迹,得到一个奖励,当积累到一定的轨迹数量过后,直接用Gt除以轨迹数量,就会得到它的价值。TD算法SARSA算法Q-learning算法DQN算法初始化两个网络;与环境交互获得经验数据(st,at,rt,st+1);将经验数据存储于buff中;从buff中采样一批数据;用目标网络计算目标(希望目标与Q值越接近越好);更新一定次数之后,将Q估计设置为Q,这就是DQN。Dou...原创 2021-06-29 16:32:34 · 876 阅读 · 0 评论 -
强学学习总结(二):简答题
请简述 强化学习的特征请举例生活中强化学习的例子基于价值函数的迭代和基于策略函数的迭代的强化学习方法有什么区别?原创 2021-06-28 20:15:35 · 1243 阅读 · 0 评论 -
考点总结:DQN
问题1:什么是DQN算法?DQN是指基于深度学习的Q-learning算法,主要结合了值函数近似(Value Function Approximation)与神经网络技术,并采用了目标网络和经历回放的方法进行网络的训练。首先,初始化两个网络Q估计、Q;接着,带有探索性的去获取一堆经验(st,at,rt,st+1);然后,存储经验于buffer中;然后,从buffer中采样数据,计算目标 y=ri+maxaQˆ (si+1, a);然后,更新Q值,让Q接近目标值,更新C次之后...原创 2021-06-28 20:23:13 · 486 阅读 · 0 评论 -
强化学习笔记:MDP 重点!重点!
Bellman Equation接下来我们来求解这个价值函数。首先我们用蒙特卡罗(Monte Carlo)的办法来计算它的价值函数。蒙特卡罗就是说当得到一个MRP过后,我们可以从某一个状态开始,把这个小船放进去,让它随波逐流,这样就会产生一个轨迹。产生了一个轨迹过后,就会得到一个奖励,那么就直接把它的折扣的奖励g算出来。算出来过后就可以把它积累起来,得到returnGt。当积累到一定的轨迹数量过后,直接用Gt除以轨迹数量,就会得到它的价值。Q函数的Bellman e...原创 2021-06-25 09:30:20 · 442 阅读 · 0 评论 -
强化学习笔记:MDPs、MC、TD
1、强化学习的特点1.没有监督标签。只会对当前状态进行奖惩和打分,其本身并不知道什么样的动作才是最好的。2. 评价有延迟。往往需要过一段时间,已经走了很多步后才知道当时选择是好是坏。有时候需要牺牲一部分当前利益以最优化未来奖励。3. 时间顺序性。每次行为都不是独立的数据,每一步都会影响下一步。目标也是如何优化一系列的动作序列以得到更好的结果。即应用场景往往是连续决策问题。4. 与在线学习相比,强化学习方法可以是在线学习思想的一种实现,但是在线学习的数据流一定是增加的,而强化学习的数据可...原创 2021-06-23 11:38:49 · 1114 阅读 · 0 评论 -
强化学习笔记:Bayesian bandits——你确定你懂了么??
问题1:在基于贪婪多臂算法(Greedy Bandit Algorithms)的最优初始化中,Q初始化过高的缺点是什么?答案:唠叨小主还不知道,请勿怪罪问题2:Is this trivial to do with functionapproximation? Why or why not?基于贪婪多臂算法(Greedy Bandit Algorithms)的最优初始化和函数近似无关吗?为什么或为什么不做?答案:唠叨小主还不知道,请勿怪罪问题3:Toy Example: Probably ..原创 2021-06-23 10:54:07 · 565 阅读 · 0 评论 -
强化学习笔记(六):Policy Gradient/策略梯度
目录考题知识点1:critic、actor定理1:策略梯度理论定理2:函数近似理论知识点3:蒙特卡洛策略梯度知识点4:Actor-critic算法知识点:Advantage Function总结考题知识点1:critic、actor定理1:策略梯度理论定理2:函数近似理论函数近似理论的证明:知识点3:蒙特卡洛策略梯度蒙特卡洛参数的更新运用了随机梯度下降的方法。蒙特卡洛策略梯度更新的公式以及伪代码如下所示:蒙特卡洛策略...原创 2021-06-22 21:32:37 · 498 阅读 · 0 评论 -
强化学习笔记(七):蒙特卡洛树搜索(MonteCarlo Tree Search)
如果说多臂赌博机问题被看做单步强化学习任务(只用一步决策玩哪个老虎机,然后就收到回报),那么蒙特卡洛树搜索可以看做是解决多步强化学习任务的工具。树是一种天然的用来刻画或者存储多步决策的数据结构。正如所有的动态规划问题可以被转化为图搜索,而所有的线性规划问题可以被转化为二分图一样。至于蒙特卡洛树搜索,实际上可以分为两步[1]:利用树结构来重新表达决策问题 利用蒙特卡洛方法来进行搜索MCTS对游戏进行多次模拟,然后尝试基于模拟结果对最佳下一步进行预测。MCTS的四个步骤,即选择、扩展、模拟...原创 2021-06-22 20:19:03 · 4606 阅读 · 3 评论 -
蒙特卡洛树搜索算法—考题总结
考题0:Batch RL Solution考题1: table lookup model1答:若使用MC算法,那么访问的奖励和/访问次数,那么V(A)=0/1=0;V(B)=6/8=3/4若使用TD算法,那么V(A)=3/42答:MC方法未必收敛到相同的解。MC方法将收敛于使观测值的MSE最小的解。考题2 :model-free RL、TD考题3 : MCTS的理解考题4 : 上置信树(UCT)搜索在上置信树(UCT)搜索中,我们将每个树节点视为一个多摇臂(.原创 2021-06-22 20:17:23 · 692 阅读 · 0 评论 -
强化学习笔记(四)Deep Q-learning/深度Q学习
问题:什么是线性函数近似方法?线性函数近似的思想是什么?用线性模型来拟合价值函数。步骤就是先定义好特征函数, 给定状态s的时候,根据x(s)提取出特征, 然后线性叠加这些特征, 进而估计这个V值。 根据loss function来求解w这个权重。线性函数近似的难点在于需要人为的设计好的特征 ,这个比较困难。问题:什么是DQN?DQN的挑战是什么?...原创 2021-06-21 19:57:53 · 1119 阅读 · 0 评论 -
强化学习笔记(三)Value Function Approximation
首先,基于之前学习笔记的内容,再次复习一下SARSA、Q-learnign、TD算法,详看下面的考题和答案。之前,我们假设我们可以以向量或者矩阵的形式来表示值函数或者状态-动作值函数,但是现实世界的状态以及行为空间巨大,基于表格形式的学习无法满足现实世界的需要,基于此,我们采取值函数近似的方法来对现实世界进行学习。今天的内容主要涉及这几个方面:Value function approximation Monte Carlo policy evaluation with linear fun..原创 2021-06-21 15:41:40 · 648 阅读 · 0 评论 -
强化学习笔记(二)Model-free control with MC/TD(SARSA、Q-learning)
问题1:SARSA与Q-learning的区别?on policy与off policy的区别?原创 2021-06-18 22:10:32 · 411 阅读 · 1 评论