- 博客(3)
- 收藏
- 关注
原创 强化学习系列(6) - Policy-Gradient-Softmax
Policy gradient 最大的一个优势是: 输出的这个 action 可以是一个连续的值, 之前我们说到的 value-based 方法输出的都是不连续的值, 然后再选择值最大的 action. 而 policy gradient 可以在一个连续分布上选取 action.误差反向传递:这种反向传递的目的是让这次被选中的行为更有可能在下次发生. 但是我们要怎么确定这个行为是不是应当被增加被选的概率呢? 这时候我们的老朋友, reward 奖惩正可以在这时候派上用场,"""RL_brain f.
2020-06-10 11:40:32 829
原创 强化学习系列(5) - DQN及其改进
采用两个深度神经网络(DNN)来学习状态到动作的映射,和神经网络权重的更新,以解决Q表状态-动作值决策时空间增长而计算存储高复杂度的问题。此外,还包括double DQN(解决过拟合),Prioritized Experience Replay(解决以更低的计算时间获得收敛效果),和Dueling DQN这些对DQN的提升方法。import osos.environ["TF_CPP_MIN_LOG_LEVEL"] = '2'import numpy as np import pandas as.
2020-06-09 10:41:25 673
原创 强化学习系列(4)-gym环境安装
这个网上已有成熟的教程,直接按步骤即可。附上参考链接:[1] https://blog.csdn.net/qq_34769201/article/details/95667042?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogComme.
2020-06-02 11:36:37 453
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人