强化学习
文章平均质量分 73
菜且凶残_2017
这个作者很懒,什么都没留下…
展开
-
Policy-based RL小结(Policy Gradient ; Natural policy gradient ;TRPO;ACKTR;PPO )
文章目录Policy-based RL前言1. 预备知识1.1 策略类型1.2 策略优化的目标函数1.2.1 可结束的环境的目标函数1.2.3 连续动作环境的目标函数1.2.4 实际的目标函数的定义1.3 策略的核函数1.4 策略的类型1.4.1 Softmax Policy1.4.2 高斯分布2. 正题:策略梯度RL2.1 问题表征2.2 MC梯度的方法3. 改善策略梯度3.1 考虑时序因果关系3.2 采用Baseline3.3 采用critic3.4 采用Advantage function3.5 TD原创 2021-06-24 07:38:03 · 884 阅读 · 2 评论 -
强化学习note2——value iteration和policy iteration的区别,MC和TD的区别
value iteration和policy iteration的区别value iteration: ①多次迭代Bellman最优等式和Bellman等式,等价值函数收敛后,②再用价值函数带入贝尔曼等式得到动作价值函数,策略就从最大的动作价值函数选取。(策略没有参与)policyiteration:①随机选取一个策略policy,用这个policy对Bellman等式进行多次迭代计算直到价值函数收敛,②再用价值函数求得动作价值函数,策略就从最大的动作价值函数选取。③然后用新的策略再进入①计算。对..原创 2021-04-29 11:15:33 · 893 阅读 · 0 评论 -
强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别
马尔科夫奖励过程MRP状态转移函数:P(St+1=s′∣st=s)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right)P(St+1=s′∣st=s)奖励函数:R(st=s)=E[rt∣st=s]R\left(s_{t}=s\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s\right]R(st=s)=E[rt∣st=s]回报:Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT\mathrm{G}原创 2021-04-27 21:22:02 · 473 阅读 · 0 评论 -
强化学习7——基于环境模型的RL方法
观周博雷老师课程有感何为模型状态转移概率:状态价值奖励:我们通常假设状态转移和价值之间是独立的如何学到模型通过环境交互,behavior policy采样一系列状态转移{S1,A1,R2,…,ST},使用监督的办法学习状态转移和价值函数。模型的种类Table Lookup ModelLinear Expectation ModelLinear Gaussian ModelGaussian Process ModelDeep Belief Network Model …T原创 2020-12-29 10:22:39 · 859 阅读 · 0 评论 -
强化学习6——policy gradient的变种State of the Art
policy-base SOTA学习周博雷老师课程总结Natural Policy Gradient 为了改善PG算法的不稳定的缺点(如果更新到一个bad policy,就会采集到的一个坏的数据集,进而恶性循环。) 这样我们在两个策略之间限制一个距离(KL-divergence),保证优化不会跑的太偏,优化的方法就变为下面这样一个等式,就是说我们在上一个策略周围找一个使得目标函数值最大的方向进行前进,下面原创 2020-12-23 19:16:33 · 224 阅读 · 0 评论 -
强化学习6——policy gradient的优化( Use temporal causality,Baseline and Critic)
policy gradient的优化听周博雷教授的课程有感为什么优化因为基于MC policy gradient的优化,方差较大方法1: Use temporal causality使用时序上的因果关系Use temporal causality(不要纠结公式,体会思想,这些等式都是可以严格推导的):取一条轨迹t=0,…,t=T-1。 (原始的梯度):∇θJ(θ)=∇θEτ∼πθ[R]=Eτ[(∑t=0T−1rt)(∑t=0T−1∇θlogπθ(at∣st))]\na原创 2020-12-22 21:32:36 · 314 阅读 · 0 评论 -
强化学习总结(3-4)——无模型的价值函数的预测,蒙特卡洛和TD时序差分方法
强化学习总结(3-) 最近呢,搞完有模型的强化学习之后,接下来就开始搞无模型的强化学习,发现还是无模型的强化学习应用场景比较多,而且更加烧脑liaoer。 上面第一张图是我们的model-base RL,第二张图是我们的model-free RL,这里呢,可以看到model-base RL是没有和环境的一个交互,换句话说呢没有实际的交互,因为那个环境中的转移概率P我们是已知的,R也是已知的,我们只需要按照价值函数期望公式就能算出价值函数,以及optimal policy。然鹅,model-fre原创 2020-12-19 20:33:24 · 347 阅读 · 1 评论 -
强化学习6——Policy-based RL(MC policy gradient)
Policy-based RL思路基于MC采样的更新方法:特点无偏但是噪声大,噪声是因为它是随机采样的,好的结果和坏的结果差距较大。解决噪声问题use temporal causality在时序上处理(REINFORCE)上式梯度更新变为下式,某时刻的奖励只与当前时刻相关,这样可以减少无必要的相关性:include a baseline再将上式变为下式,减去一个bias,这个bias可以取值为期望,这样就可以平均一些很离谱的价值:可以将b取为:...原创 2020-12-18 15:47:44 · 555 阅读 · 1 评论 -
强化学习6——Value-based RL和Policy-based RL 的区别
Value-based RL和Policy-based RL 的区别 Value-based RL 都是确定的一个策略:at=argmaxaQ(a,st)a_{t}=\arg \max _{a} Q\left(a, s_{t}\right)at=argmaxaQ(a,st)。 Policy-based RL 产生的是各个动作的概率:πθ(a∣s)\pi_\theta(a|s)πθ(a∣s)。例如下图用神经网路来构建策略,θ\thetaθ可以看做是各个连接层之间的参数,输入的是游戏的像原创 2020-12-18 11:07:31 · 1707 阅读 · 0 评论 -
强化学习5——价值函数近似(VFA)
价值函数近似(VFA) 原因:状态太多,算力存储能力有限。只能通过插值的办法(神经网络)近似求得无法算到的状态价值函数值或状态动作价值函数值,或者是策略。如下: 方法:线性拟合,神经网络,决策树,邻近算法有模型无模型两种方法来代替,1. MC;2. TDMC近似方法TD近似方法价值动作函数近似(AVFA)有模型无模型...原创 2020-12-16 15:52:28 · 438 阅读 · 0 评论 -
强化学习总结(1-2)——model-base(policy evaluation;policy control)
文章目录强化学习总结(1-4)马尔科夫决策过程policy evaluationpolicy controlpolicy iterationvalue iteration两种方法的区别强化学习总结(1-4)马尔科夫决策过程 马尔科夫决策过程是一个model-base过程,它分为策略估值policy evaluation与策略控制policy control。就是已知一个策略估计状态函数的值,和求解一个最优策略。policy evaluation 策略估值evaluation的情况下,主要采用动原创 2020-12-15 12:05:11 · 625 阅读 · 0 评论 -
强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)
文章目录前言无模型控制问题思路方法On-Policy learningMCSarsaOff-policy learningQ-learningOn-Policy learning 和 Off-policy learning的区别前言本文是学习周博雷老师的强化学习课程的心得体会。雷大佬的GItHub无模型控制问题 当我们不知道 MDP 模型的情况下,如何优化价值函数,得到最佳的策略。思路 这里和有模型的控制策略的估计有一个不同是,我们这里使用MC方法来估算Q函数。其余的和无模型的控制是一样原创 2020-12-14 21:47:19 · 1336 阅读 · 0 评论 -
强化学习3——有模型(Model-base)与无模型(Model-free)RL的区别
文章目录强化学习——有模型(Model-base)与无模型(Model-free)RLModel-base RLModel-free RL强化学习——有模型(Model-base)与无模型(Model-free)RLModel-base RL 在这个过程中,agent 没有跟环境进行交互,环境的所有信息(转移概率和价值函数都给了,不需要自己探索)都具有了。Model-free RL 在这个过程中,agent没有环境的信息,需要跟环境进行交互,采集到很多的轨迹数据,agent 从轨迹中获取信原创 2020-12-10 10:39:51 · 13476 阅读 · 0 评论 -
强化学习4——无模型预测(蒙特卡洛法和TD法)
强化学习——无模型预测与控制无模型的概念 状态转移的概率和相应的奖励都是未知的,需要agent试探,相当于经验主义。agent通过不断地执行action与环境交互,然后得到实际的return,执行N次求其平均值。无模型预测蒙特卡洛法 agent在现实中从状态sss通过一个策略与环境进行交互,得到多个轨迹,每个轨迹会得到一个实际的收益Gt=Rt+1+γRt+2+γ2Rt+3+…G_t=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldotsGt=Rt+1原创 2020-12-09 11:56:48 · 1186 阅读 · 0 评论 -
强化学习1——策略,价值函数,模型
文章目录强化学习——概述组成策略:行为函数价值函数:状态和行为的得分模型:整个世界的表达强化学习——概述组成策略:行为函数 分为两种: 概率型策略:从策略π\piπ中,按照概率π(a∣s)=P(at=a∣st=s)\pi(\mathrm{a} \mid \mathrm{s})=\mathrm{P}\left(\mathrm{a}_{\mathrm{t}}=\mathrm{a} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right)π(a∣s)=P(at原创 2020-12-04 14:49:36 · 1471 阅读 · 0 评论 -
强化学习2——有模型强化学习MDP(搬砖马尔科夫,贝尔曼等式)
文章目录强化学习——马尔科夫系列前言马尔科夫决策过程(MDP)1 马尔科夫过程(MP)1.1 马尔科夫性质1.2 马尔科夫过程1.3 马尔科夫的一个例子2 马尔科夫奖励过程(MRP)2.1 马尔科夫奖励过程的一个例子2.2 回报和状态价值函数2.3 贝尔曼等式2.4 计算MRP的价值函数2.4.1 **蒙特卡罗(Monte Carlo)法**2.4.2 **动态规划的迭代方法**3 马尔科夫决策过程(MDP)3.1 策略3.2 MP/MRP和MDP之间的对比3.3 MDP价值函数3.4 Q函数的贝尔曼等式3原创 2020-12-03 13:15:09 · 611 阅读 · 0 评论