强化学习的分类方法

总体认识

在这里插入图片描述

强化学习是很大的概念,他包含了很多种算法,我们也会一一提到其中一些比较有名的算法,比如有通过行为的价值来选取特定行为的方法,包括使用表格学习的Q Learning方法,sarsa等,使用神经网络学习的Deep Q Network,还有直接输出行为的policy gradients,又或者了解所处的环境,建模出一个虚拟的环境并从虚拟的环境中学习等等。

了解强化学习中常用到的几种方法,以及他们的区别,对我们根据特定问题选择方法时很有帮助。强化学习是一个大概念,发展历史也不短,有很多中不同方法。比如说比较知名的控制方法Q Learning,policy gradients,还有基于对环境的理解的model-based RL等等。接下来我们通过分类的方式来了解他们的区别。

Model-free 和 Model-based

在这里插入图片描述

我们可以将所有强化学习的方法分为理不理解所处的环境,如果我们不尝试去理解环境,环境给了我们什么就是什么。我们把这种方法叫做model-free,这里的model是用模型来表示环境,理解了环境也就是学会了用一个模型来代表环境,所以这种就是model-based方法。我们假设,现在环境是我们的时间,我们的机器人在这个世界里玩

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值