自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

马飞飞的博客

极客 匠心

  • 博客(2)
  • 资源 (1)
  • 收藏
  • 关注

原创 强化学习模型-Priority Replay Buffer

论文:Schaul T, Quan J, Antonoglou I, et al. Prioritized Experience Replay[J] . Computer Science,2015前言1.首先提下Replay Buffer吧,Replay Buffer是最基本的样本收集再采样的过程,是之前在做DDQN实验中使用的一种样本利用方式,原因是当我们使用Q-learning算法进行...

2019-06-05 10:11:25 15016

原创 解读DDPG算法结构

算法流程1.主要的架构可以分解成以下几部分进行理解: *首先DDPG的特点是actor虽然是PG的架构,但是actor输出的动作值并不是一个概率分布,而是一个确定性的连续动作选择(可以适用连续动作情况),其网络就是给予状态作为输入,然后网络会给予一个动作作为输出,表示在这个状态情况下,最该采取的动作值,然后对其这个online网络的更新是根据critic网络提供更新依据,也就...

2019-06-05 10:04:39 15144

供电企业法制化管理分析

这是我的课题作业,可以作为参考,是结合几个论文写出来的东西。

2018-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除