学习总结——强化学习入门

最新推荐文章于 2024-07-10 14:50:15 发布

HHHChen

最新推荐文章于 2024-07-10 14:50:15 发布

阅读量472

点赞数

分类专栏：机器学习文章标签：强化学习算法机器学习

本文链接：https://blog.csdn.net/qq_37653019/article/details/106969784

版权

本文介绍了强化学习的基础概念，包括Sarsa、Q-learning、DQN和Policy Gradient算法，并探讨了连续动作空间上的DDPG算法。通过参加百度飞桨的课程，作者实践了强化学习在接球小游戏的应用，展示了强化学习在解决实际问题中的应用。

摘要由CSDN通过智能技术生成

近期参加了百度飞桨的零基础入门强化学习课程，经过7天的教学+实践的方式入门学习强化学习，从完成小项目的形式加深对强化学习一些概念和算法的理解和消化。在课程的最后，对整个课程做个简单的知识总结。

强化学习(RL)

概念

强化学习（Reinforcement Learning），是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。
RL核心思想

学习方案

强化学习有两种学习方案：基于价值(value-based)、基于策略(policy-based)
学习方案对比
经典算法：Q-learning、Sarsa、DQN、Policy Gradient、A3C、DDPG、PPO
环境分类：离散控制场景（输出动作可数）、连续控制场景（输出动作值不可数）

学习框架

PARL(paddlepaddle Reinfocement Learning)是百度推出的基于PaddlePaddle(飞桨）的深度强化学习框架，具有可复用性强、扩展性好、支持大规模并行计算等优点。百度凭借PARL连续两年（2018、2019）在人工智能顶会NeurIPS的强化学习挑战赛上夺魁，足见其性能的强大。(附PARL的github链接)

基于表格型方法求解RL

Sarsa

Sarsa全称是state-action-reward-state’-action’（state’-action’分别表示下一个状态和行动），目的是学习特定的state下，特定action的价值Q，最终建立和优化一个Q表格，以state为行，action为列，根据与环境交互得到的reward来更新Q表格，更新公式为：
Sarsa的Q表更新公式