自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_42128001的博客

论文

关注

文章平均质量分 62

关注数：文章数：1 文章阅读量：391 文章收藏量：0

作者: 种种粒粒在目

211大学本科在读生，目前在学习前端技术，还是菜鸟一个。请多多指教

展开

[论文阅读]Deep Reinforcement Learning in Continuous Action Spaces: a Case Study in the Game of Simulated

1.摘要：目前越来越多的现实世界中的应用要求agent选择动作在一个连续动作空间，离散动作一个微笑的变化会影响全局，本文模拟环境为一个冰壶游戏。 2.Introduction：我们设计了一个深度卷积策略值网络，以冰壶运动为模拟器，冰壶运动的动作空间大，策略复杂。policy输出每个动作的概率分布，value输出最终得分分布[-8,8]。 3.Related work：（1）alphago zero：在没有任何手工知识的情况下自行训练，策略和值网络一样，能够加快训练。（2）博弈树中对持续动作空间，动

翻译 2022-04-28 17:23:48 · 391 阅读 · 0 评论