[论文阅读]Deep Reinforcement Learning in Continuous Action Spaces: a Case Study in the Game of Simulated
1.摘要:
目前越来越多的现实世界中的应用要求agent选择动作在一个连续动作空间,离散动作一个微笑的变化会影响全局,本文模拟环境为一个冰壶游戏。
2.Introduction:
我们设计了一个深度卷积策略值网络,以冰壶运动为模拟器,冰壶运动的动作空间大,策略复杂。policy输出每个动作的概率分布,value输出最终得分分布[-8,8]。
3.Related work:
(1)alphago zero:在没有任何手工知识的情况下自行训练,策略和值网络一样,能够加快训练。
(2)博弈树中对持续动作空间,动
翻译
2022-04-28 17:23:48 ·
391 阅读 ·
0 评论