【莫烦强化学习】视频笔记(一)2. 强化学习方法汇总

【莫烦强化学习系列视频】笔记本

第2节 强化学习方法汇总

本节的目的更多是对强化学习的方法及特征有初步的了解。我们可以通过将强化学习方法分类,来逐一理解。


首先是通过是否需要理解环境(环境给我们什么就是什么),能够分为无模型的强化学习方法基于模型的强化学习方法
假设这里有一个机器人和一个星球X。
无模型的强化学习方法(Model-Free): 不需要理解环境,机器人对星球X一无所知,机器人扔了一颗原子弹,但是由于环境未知,把自己也炸死了。
基于模型的强化学习方法(Model-Based) : 机器人通过过往的经验先理解真实的世界是如何的,建立一个模型模拟真实世界的反馈(这里如何获得的模型暂不讨论,只是有个大概的概念),然后原子弹无需扔到真实世界,在模型世界中肆意妄为也不会炸死自己。

两种分类如下:

  • 不理解环境(Model-Free): 可用的方法有Q学习(Q-Learning)、Sarsa学习和策略梯度(Policy Gradients),这些方法都是从环境中得到反馈来学习。
  • 理解环境(Model-Based): 相比于无模型的方法多了建模的工序,模型即“虚拟环境”,方法同上。另外,无模型方法只能按部就班的与环境交互获得反馈,但是基于模型的方法多了“想象力”,可以在模拟环境中获得所有可能的结果,根据最好的结果来选择策略。

另外一种分类方法是基于概率的方法和基于价值的方法:
在这里插入图片描述

  • 基于概率的方法: 通过感受环境(交互),输出的是各个动作的概率,比如游戏中的“上下左右”为4个动作。然后根据概率选择行动,虽然某些动作的概率很高,但是也不一定被选中,小概率事件也有可能发生。例如策略梯度(Policy Gradients)
  • 基于价值的方法: 通过感受环境(交互),输出的是各个动作的价值,通过价值的高低来选择动作,这样选择的动作是最直接的,百分百选中最高价值的动作。例如:Q学习(Q-Learning)、Sarsa学习

需要注意的是,基于价值的方法对连续的动作是无能为力的,但基于概率的方法仍然可以通过概率分布得到某个动作的概率。

这两种方法还可以经过改近产生一种方法:Actor-Critic方法,Actor可以基于概率做出动作,而Critic会根据动作给出价值,由此加快了学习过程。


第三种分类是单步更新回合更新,这里想象我们在玩一个游戏:

  • 单步更新: 游戏开始后,每一步都进行一次准则更新,边进行游戏边学习。例如Qlearning(Q学习), Sarsa(Sarsa学习), 升级版的 policy gradients(策略梯度)
  • 回合更新: 游戏开始后,直到结束,才总结所有动作节点,进行准则更新。例如 Monte-carlo learning(蒙特卡洛学习)基础版的 policy gradients

单步更新相比于回合更新效率更高,大部分都是单步更新,比如有的强化学习问题不属于回合问题。


最后是离线学习在线学习
这里我认为视频中的说法可能不准确,离线、在线学习和On\Off-Policy之间没有必然联系,是两个不同的概念。在David Silver的视频(B站讲解视频,含资料下载)中可以有更加深刻的了解:
在这里插入图片描述
同策略(On-Policy): 采样策略与更新策略相同(后面才会提到“策略”,这里是选择动作的概率),如Sarsa学习中(s-a-R-s’-a’),智能体与环境交互采样与用来更新Q表的(具体来说是“估计”)策略相同。
异策略(Off-Policy): 采样策略与更新策略不同(后面才会提到“策略”,这里是选择动作的概率),如Q学习中,智能体与环境交互采样与用来更新Q表的策略不同,后者是纯贪婪。
在线学习: 直接与环境交互并同时利用其数据进行更新。
离线学习: 如DQN,是从一些已有的经验中抽取,一组数据训练完成后才更新,而不是直接交互和更新。这是模仿了人脑的记忆单元——海马体。

上一篇:【莫烦强化学习】视频笔记(一)1. 什么是强化学习?
下一篇:【莫烦强化学习】视频笔记(一)3. 为什么用强化学习?

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值