【强化学习】强化学习导论

一、概述

强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能。

在这里插入图片描述

二、强化学习算法汇总

2.1 Model-Free vs Model-Based

  • 免模型学习(Model-Free)
    不尝试去理解环境, 环境给了我们什么就是什么,一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。在效率上不如前者,但是这种方式更加容易实现,也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎,得到更加广泛的开发和测试。
    Q learning, Sarsa, Policy Gradients 等都属于Model-Free
  • 有模型学习(Model-Based)
    对环境有提前的认知,通过过往的经验, 先理解真实世界是怎样的, 并建立一个模型来模拟现实世界的反馈,可以提前考虑规划,但是缺点是如果模型跟真实世界不一致,那么在实际使用场景下会表现的不好。

在这里插入图片描述

2.2 基于概率 vs 基于价值

  • 基于概率
    基于概率是强化学习中最直接的一种,直接输出下一步要采取的各种动作的概率,根据概率采取行动,所以每种动作都有可能被选中,只是可能性不同。
  • 基于价值
    基于价值的方法输出的则是所有动作的价值,根据最高价值来选着动作。相比基于概率的方法,基于价值的决策部分更为确定,直接选价值最高的,而基于概率的方法,即使某个动作的概率最高,但是还是不一定会选到他。
  • 基于概率的方法有Policy Gradient,在基于价值这边有 Q learning, Sarsa 等。
  • Actor-Critic结合了基于概率和基于价值: actor 会基于概率做出动作,而 critic 会对做出的动作给出动作的价值,这样就在原有的 policy gradients 上加速了学习过程。

在这里插入图片描述
在这里插入图片描述

2.3 回合更新 Vs 单步更新

在这里插入图片描述

2.4 在线学习 Vs 离线学习

在这里插入图片描述

三、强化学习的难点

在这里插入图片描述

四、Policy-based Approach

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值