深度强化学习用于博弈类游戏-基础【1】
1. 强化学习方法
伴随着人工智能的潮起潮落,强化学习的从最早期的最优控制发展至今,这段时间里存
在两个重要的时间点。第⼀个关键点是 1998年,Alex M. Andrew出版 Reinforcement
Learning:An Introduction。
该书系统地总结了 1998年以前强化学习算法的各种进展。在此之前,学者们关注和发展得最多的算法是表格型强化学习算法,形成了强化学习的基本理论框架。不过这⼀时期基于直接策略搜索的⽅法也被提出来了,如 1992年 R.J.Williams提出了 Reinforce算法直接对策略梯度进⾏估计。在 1998年到 2013年,学术界继续发展出了各种直接策略搜索的⽅法。
第⼆个关键点是 2013年 DeepMind提出 DQN,将深度⽹络与强化学习算法结合形成深度强化学习,并在 alphago系列中取得了成功应⽤。在这之后深度强化学习继续发展,形成了更多的算法,例如 DDPG,TRPO,A2C,ACER,PPO等,并取得了很⼤的应⽤进展,如 openAI的 dota,以及 DeepMind的 alpha star。
强化学习要解决的是序列决策问题,它不关心输⼊⻓什么样,只关心当前输⼊下应该采
⽤什么动作才能实现最终的⽬标,作为⾏为主义的代表,它依靠与环境进⾏交互来学习。这
与监督学习和⾮监督学习有本质的区别,监督学习知道学习过程中的正确结果是什么,希望