强化学习
文章平均质量分 57
lijieling123
努力赚钱
展开
-
DPPO:Distributed Proximal Policy Optimization
DPPO:Distributed Proximal Policy Optimization分布式近端策略优化,因为就是PPO的分布式实现,整条的架构和A3C差不多,一个主网络,N个子网络,不一样的地方是,A3C的子网络负责采样数据和计算梯度,然后将梯度传回主网络,而DPPO的子网络只是负责采样数据,然后将采样的数据传回主网络进行统一计算。这个DPPO是王者荣耀智能体采用的技术方案,但是网上只有论文,没有具体的实现。要实现DPPO主要要解决两个技术难点:1.如何快速的在多个计算节点之间进行数据交换,一原创 2022-05-23 11:34:54 · 1598 阅读 · 0 评论 -
Actor-Critic
Actor-Critic将选取动作策略的步骤称为Actor,将评估动作的概率是变大还是变小的步骤称为Critic在AC算法中,Actor和Critic一般采用神经网络来实现,因此称为策略网络(参数为θ)和评价网络(参数为w)当评价函数为Q函数的时候,为最基础的AC算法,此时Actor参数的更新方式:θ=θ-α▽logπ(at|st, θ)*Q(at,st)Critic的损失函数:Loss=(Rt+γmaxQ(s’,a’)-Q(st,at))^2PS:s’为st的下一个状态,Rt为st转移到s’的原创 2022-05-23 11:06:48 · 1352 阅读 · 0 评论 -
Policy Gradient
Policy Gradient DQN利用神经网络来计算某个状态下执行各个动作的Q值是多少,从而辅助我们选取最优的动作,是一个回归问题,研究自变量和因变量之间的关系通过计算Q值,获取最优动作方法:采用策略梯度算法,策略梯度是Policy-Based的回合更新算法,本质上是一个分类问题,就是计算某个状态分类到某个动作的概率是多少,策略就是希望一个动作得到的奖励越多,它被选择的概率也越大。和DQN一样可以用神经网络来拟合这个过程,先确定我们目标函数,我们要优化的目标是使累积回报最大化,因此:目标函数原创 2022-05-23 10:42:38 · 261 阅读 · 0 评论 -
分布式架构APE-X
Rainbow是结合七个变体DAN打造出来的最强DQN算法,APE-X对Rainbow进行了降维打击,APE-X和Rainbow一样,在算法层次其实没有做太大的革新,但是和Rainbow集众家之所长不一样的是,APE-X引入了分布式架构PE-X是基于PER DQN所做的优化,在编写PER DQN智能体的时候,有几个比较重要的模块:1.act,这个模块主要负责和环境进行交互2.memory,这个模块主要负责记忆库的增删改查3.learn,主要是从记忆库中获取数据进行训练时,三个模块在同一个进程里面跑原创 2022-04-04 16:54:50 · 762 阅读 · 0 评论 -
DQN的一些变体(改进)总结,如:Double DQN、Prioritized Experience Replay DQN等
王者荣耀最早也是基于DQN来实现智能体,后来改成PPO引入Double DQN的前言DQN总共有两个网络,一个是实时更新的评估网络,一个是阶段性更新的目标网络目标Q值(即下个时刻的累积价值)的计算主要依赖目标网络,通过传入下个状态S(t+1),来获取S(t+1)状态下最大的Q值以及对应的动作,从而完成Q函数的更新但是无论是DQN还是QLearning,在计算价值函数的时候都采用了贪心策略,即每次都对(状态-动作)的实际价值进行了过高的估计,最终会影响到我们最后的决策因此引入Double DQN,通原创 2022-04-01 13:20:32 · 1954 阅读 · 0 评论 -
QLearning和DQN
实际不可能这么简单,f应该是一个非常复杂的函数,所以可以采用神经网络来表示这个函数,神经网络可以从大量的样本数据中拟合出一个最相似的f来表示Q,而这需要一个前置条件:确定损失函数(判定f接近Q的标准)原创 2022-03-31 21:48:47 · 3416 阅读 · 0 评论 -
强化学习基本概念及方法分类
定义强化学习的目标是找到最大化收益的策略,找寻策略的一个重要途径是找到马可夫决策模型上的价值函数马尔可夫用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态,即符合马尔可夫性质求解价值函数求解价值函数有三种方法:蒙特卡洛方法,方程:V(s)←V(s)+α(Gt−V(s))动态规划方法,贝尔曼方程(相对于对于确定的环境):V(s)←Eπ[Rt+1+γV(s′)]结合蒙特卡洛方法原创 2022-03-28 17:18:34 · 3455 阅读 · 0 评论