近期参加了百度飞桨的零基础入门强化学习课程,经过7天的教学+实践的方式入门学习强化学习,从完成小项目的形式加深对强化学习一些概念和算法的理解和消化。在课程的最后,对整个课程做个简单的知识总结。
目录
强化学习(RL)
概念
强化学习(Reinforcement Learning),是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

学习方案
强化学习有两种学习方案:基于价值(value-based)、基于策略(policy-based)

经典算法:Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO
环境分类:离散控制场景(输出动作可数)、连续控制场景(输出动作值不可数)
学习框架
PARL(paddlepaddle Reinfocement Learning)是百度推出的基于PaddlePaddle(飞桨)的深度强化学习框架,具有可复用性强、扩展性好、支持大规模并行计算等优点。百度凭借PARL连续两年(2018、2019)在人工智能顶会NeurIPS的强化学习挑战赛上夺魁,足见其性能的强大。(附PARL的github链接)
基于表格型方法求解RL
Sarsa
Sarsa全称是state-action-reward-state’-action’(state’-action’分别表示下一个状态和行动),目的是学习特定的state下,特定action的价值Q,最终建立和优化一个Q表格,以state为行,action为列,根据与环境交互得到的reward来更新Q表格,更新公式为:

Q-learning
Q-learning也是采用Q表格的方式存储Q值(状态动作价值),决策部分与Sarsa是一样的,采用ε-greedy方式增加探索。
Q-learning跟Sarsa不一样的地方是更新Q表格的方式。

本文介绍了强化学习的基础概念,包括Sarsa、Q-learning、DQN和Policy Gradient算法,并探讨了连续动作空间上的DDPG算法。通过参加百度飞桨的课程,作者实践了强化学习在接球小游戏的应用,展示了强化学习在解决实际问题中的应用。
最低0.47元/天 解锁文章
15万+

被折叠的 条评论
为什么被折叠?



