自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 强化学习系列(6) - Policy-Gradient-Softmax

Policy gradient 最大的一个优势是: 输出的这个 action 可以是一个连续的值, 之前我们说到的 value-based 方法输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.误差反向传递:这种反向传递的目的是让这次被选中的行为更有可能在下次发生. 但是我们要怎么确定这个行为是不是应当被增加被选的概率呢? 这时候我们的老朋友, reward 奖惩正可以在这时候派上用场,"""RL_brain f.

2020-06-10 11:40:32 829

原创 强化学习系列(5) - DQN及其改进

采用两个深度神经网络(DNN)来学习状态到动作的映射,和神经网络权重的更新,以解决Q表状态-动作值决策时空间增长而计算存储高复杂度的问题。此外,还包括double DQN(解决过拟合),Prioritized Experience Replay(解决以更低的计算时间获得收敛效果),和Dueling DQN这些对DQN的提升方法。import osos.environ["TF_CPP_MIN_LOG_LEVEL"] = '2'import numpy as np import pandas as.

2020-06-09 10:41:25 673

原创 强化学习系列(4)-gym环境安装

这个网上已有成熟的教程,直接按步骤即可。附上参考链接:[1] https://blog.csdn.net/qq_34769201/article/details/95667042?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogComme.

2020-06-02 11:36:37 453

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除