2019年06月_马飞飞

12月 08月 07月 06月 04月 03月 02月

原创强化学习模型-Priority Replay Buffer

论文：Schaul T, Quan J, Antonoglou I, et al. Prioritized Experience Replay[J] . Computer Science,2015前言1.首先提下Replay Buffer吧，Replay Buffer是最基本的样本收集再采样的过程，是之前在做DDQN实验中使用的一种样本利用方式，原因是当我们使用Q-learning算法进行...

2019-06-05 10:11:25 15089

原创解读DDPG算法结构

算法流程1.主要的架构可以分解成以下几部分进行理解： *首先DDPG的特点是actor虽然是PG的架构，但是actor输出的动作值并不是一个概率分布，而是一个确定性的连续动作选择（可以适用连续动作情况），其网络就是给予状态作为输入，然后网络会给予一个动作作为输出，表示在这个状态情况下，最该采取的动作值，然后对其这个online网络的更新是根据critic网络提供更新依据，也就...

2019-06-05 10:04:39 15173

供电企业法制化管理分析

这是我的课题作业，可以作为参考，是结合几个论文写出来的东西。

2018-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习模型-Priority Replay Buffer

原创 解读DDPG算法结构

供电企业法制化管理分析

空空如也

原创强化学习模型-Priority Replay Buffer

原创解读DDPG算法结构