![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
轻羽羽
学编程的美食爱好者,
有问题欢迎邮件联系szysunyi@163.com
展开
-
深度强化学习算法分类及介绍---按on-off/按有无模型/按基于价值还是基于策略
一、按算法分类1、onpolicy:同策学习:边决策边学习,学习者也是决策者,例如围棋AI边对弈边学习2、offpolicy:异策学习:通过之前的历史(可以是自己的历史也可以是别人的历史)进行学习,学习者和决策者不需要相同。在异策学习的过程中,学习者并不一定要知道当时的决策,例如围棋AI通过阅读人类的对弈历史来学习二、按有无模型分类1、有模型学习:用到了环境的数学模型,可能在学...原创 2020-03-27 14:34:01 · 1774 阅读 · 0 评论 -
用多项式分布采样代替epsilon-greedy
一、epsilon-greedy if explore: if np.random.rand() <= self.epsilon: return random.randrange(self.action_size) act_values = self.model.predict(state)...原创 2020-03-08 22:20:55 · 820 阅读 · 0 评论 -
DDPG本质:将策略网络和价值网络分开 || 经验池作用、目标网络作用、DDQN简介
经验池作用:深度学习要求输入数据独立同分布,使用经验池可以使状态间相互独立目标值网络作用:计算网络目标值需要用到现有的Q值,用一个更新较慢的网络专门提供此Q值,进而提高训练的稳定性和收敛性,而原网络的Q值仅用于动作选择和更新参数DQN:只有一个网络Nature DQN:用目标网络计算目标值yDouble DQN:因真实策略具有随机性,因此上图max操作使估计值函数比真实值函数大...原创 2019-12-07 09:52:34 · 3010 阅读 · 0 评论