强化学习(分类类别)

强化学习的分类:

强化学习可以分为两大类:①有模型的强化学习;②无模型的强化学习

通常可以用马尔可夫决策过程来定义强化学习任务,并将其表示为四元组,分别是状态集合、动作集合、状态转移函数和奖励函数,假设这四元中组中所有元素已知,且状态集合和动作集合在有限步数内是有限集,则机器学习可以对真实环境进行建模,通过学习状态转移函数来构建一个虚拟环境,以模拟真实环境的状态和交互和反映,这就是有模型强化学习。然而在实际应用中,智能体并不是那么容易就能知晓马尔可夫决策过程中的所有元素的,通常情况下,状态转移函数和奖励函数很难估计,甚至连环境中的状态都可能是未知的,所以才有了无模型强化学习

无模型强化学习又可以分为基于价值迭代基于策略迭代两种方式。

基于价值迭代:

智能体不需要制定显示的策略,只需要维护一个价值表格或价值函数,并通过这个价值表格或价值函数来选取价值最大的动作。通常智能应用于离散的环境下,对于行为集合规模庞大、动作连续的场景,很难学习到较好的结果。

基于策略迭代:

能够通过分析所处的环境,直接输出下一步要采取的各种动作的概率,然后根据概率采取动作,所以每种动作都有可能被选中,只是可能性不同,这样便可以用来处理连续动作。这一类的智能体会制定一套动作策略,并根据这个策略进行操作,直接对策略进行优化,使定制的策略能够获得最大的奖励。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值