近期参加了百度飞桨的零基础入门强化学习课程,经过7天的教学+实践的方式入门学习强化学习,从完成小项目的形式加深对强化学习一些概念和算法的理解和消化。在课程的最后,对整个课程做个简单的知识总结。
目录
强化学习(RL)
概念
强化学习(Reinforcement Learning),是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
学习方案
强化学习有两种学习方案:基于价值(value-based)、基于策略(policy-based)
经典算法:Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO
环境分类:离散控制场景(输出动作可数)、连续控制场景(输出动作值不可数)
学习框架
PARL(paddlepaddle Reinfocement Learning)是百度推出的基于PaddlePaddle(飞桨)的深度强化学习框架,具有可复用性强、扩展性好、支持大规模并行计算等优点。百度凭借PARL连续两年(2018、2019)在人工智能顶会NeurIPS的强化学习挑战赛上夺魁,足见其性能的强大。(附PARL的github链接)
基于表格型方法求解RL
Sarsa
Sarsa全称是state-action-reward-state’-action’(state’-action’分别表示下一个状态和行动),目的是学习特定的state下,特定action的价值Q,最终建立和优化一个Q表格,以state为行,action为列,根据与环境交互得到的reward来更新Q表格,更新公式为: