2020年06月_周周34

09月 08月 07月 06月 05月 04月 03月 02月 01月

原创强化学习系列(6) - Policy-Gradient-Softmax

Policy gradient 最大的一个优势是: 输出的这个 action 可以是一个连续的值, 之前我们说到的 value-based 方法输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.误差反向传递：这种反向传递的目的是让这次被选中的行为更有可能在下次发生. 但是我们要怎么确定这个行为是不是应当被增加被选的概率呢? 这时候我们的老朋友, reward 奖惩正可以在这时候派上用场,"""RL_brain f.

2020-06-10 11:40:32 829

原创强化学习系列(5) - DQN及其改进

采用两个深度神经网络（DNN）来学习状态到动作的映射，和神经网络权重的更新，以解决Q表状态-动作值决策时空间增长而计算存储高复杂度的问题。此外，还包括double DQN（解决过拟合），Prioritized Experience Replay（解决以更低的计算时间获得收敛效果），和Dueling DQN这些对DQN的提升方法。import osos.environ["TF_CPP_MIN_LOG_LEVEL"] = '2'import numpy as np import pandas as.

2020-06-09 10:41:25 673

原创强化学习系列(4)-gym环境安装

这个网上已有成熟的教程，直接按步骤即可。附上参考链接：[1] https://blog.csdn.net/qq_34769201/article/details/95667042?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogComme.

2020-06-02 11:36:37 453

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习系列(6) - Policy-Gradient-Softmax

原创 强化学习系列(5) - DQN及其改进

原创 强化学习系列(4)-gym环境安装

空空如也

空空如也

原创强化学习系列(6) - Policy-Gradient-Softmax

原创强化学习系列(5) - DQN及其改进

原创强化学习系列(4)-gym环境安装