深度强化学习算法分类及介绍---按on-off/按有无模型/按基于价值还是基于策略

一、按算法分类

1、on policy:同策学习:边决策边学习,学习者也是决策者,例如围棋AI边对弈边学习

2、off policy:异策学习:通过之前的历史(可以是自己的历史也可以是别人的历史)进行学习,学习者和决策者不需要相同。在异策学习的过程中,学习者并不一定要知道当时的决策,例如围棋AI通过阅读人类的对弈历史来学习

二、按有无模型分类

1、有模型学习:用到了环境的数学模型,可能在学习前环境的模型就已明确、也可能环境的模型也是通过学习来获得。例如围棋AI在下棋时在完全了解游戏规则的基础上虚拟出另外一个棋盘并在虚拟棋盘上试下,通过试下来学习

2、 无模型学习:不需要环境信息、不需要搭建模拟环境模型,所有的经验都是通过与真实环境交互得到

三、基于价值和基于策略

1、基于价值:基于价值的强化学习定义了状态或动作的价值函数以表示到达某种状态或执行某种动作后可以得到的回报,基于价值的强化学习倾向于选择价值最大的状态或动作

2、基于策略:不需要定义价值函数,它可以为动作分配概率分布,按照概率分布执行动作

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值