深度强化学习用于博弈类游戏-基础测试与说明【1】

GuGuDa123

已于 2023-10-29 19:33:06 修改

阅读量269

点赞数

分类专栏：计算机视觉 - Opencv 强化学习等的趣味小实验文章标签：游戏

于 2023-10-29 17:04:01 首次发布

本博客为个人撰写，未经商业授权严禁转载！

本文链接：https://blog.csdn.net/u013537270/article/details/134104504

版权

计算机视觉 - Opencv 强化学习等的趣味小实验专栏收录该内容

58 篇文章 56 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了深度强化学习在LOL游戏中的应用，通过环境搭建和游戏特征元素提取，利用策略梯度算法进行决策。重点讨论了如何从小地图中获取人物位置、血量信息，以及小兵和防御塔的位置，还涉及自编码器提取额外特征。此外，文章简要概述了策略梯度算法的工作原理。

摘要由CSDN通过智能技术生成

1. 强化学习方法

伴随着人工智能的潮起潮落，强化学习的从最早期的最优控制发展至今，这段时间里存
在两个重要的时间点。第⼀个关键点是 1998年，Alex M. Andrew出版 Reinforcement
Learning：An Introduction。

该书系统地总结了 1998年以前强化学习算法的各种进展。在此之前，学者们关注和发展得最多的算法是表格型强化学习算法，形成了强化学习的基本理论框架。不过这⼀时期基于直接策略搜索的⽅法也被提出来了，如 1992年 R.J.Williams提出了 Reinforce算法直接对策略梯度进⾏估计。在 1998年到 2013年，学术界继续发展出了各种直接策略搜索的⽅法。

第⼆个关键点是 2013年 DeepMind提出 DQN，将深度⽹络与强化学习算法结合形成深度强化学习，并在 alphago系列中取得了成功应⽤。在这之后深度强化学习继续发展，形成了更多的算法，例如 DDPG,TRPO,A2C,ACER,PPO等，并取得了很⼤的应⽤进展，如 openAI的 dota，以及 DeepMind的 alpha star。

强化学习要解决的是序列决策问题，它不关心输⼊⻓什么样，只关心当前输⼊下应该采
⽤什么动作才能实现最终的⽬标，作为⾏为主义的代表，它依靠与环境进⾏交互来学习。这
与监督学习和⾮监督学习有本质的区别，监督学习知道学习过程中的正确结果是什么，希望