- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 强化学习模型-Priority Replay Buffer
论文:Schaul T, Quan J, Antonoglou I, et al. Prioritized Experience Replay[J] . Computer Science,2015前言1.首先提下Replay Buffer吧,Replay Buffer是最基本的样本收集再采样的过程,是之前在做DDQN实验中使用的一种样本利用方式,原因是当我们使用Q-learning算法进行...
2019-06-05 10:11:25 15089
原创 解读DDPG算法结构
算法流程1.主要的架构可以分解成以下几部分进行理解: *首先DDPG的特点是actor虽然是PG的架构,但是actor输出的动作值并不是一个概率分布,而是一个确定性的连续动作选择(可以适用连续动作情况),其网络就是给予状态作为输入,然后网络会给予一个动作作为输出,表示在这个状态情况下,最该采取的动作值,然后对其这个online网络的更新是根据critic网络提供更新依据,也就...
2019-06-05 10:04:39 15173
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人