机器学习【4】:强化学习(Reinforcement Learning),Q-learning方法

一. 强化学习

     什么是强化学习,首先我们要了解强化学习的几个重要概念,也是强化学习四要素:状态(state)、动作(action)、策略(policy)、奖励(reward)

         

    说简单一点,强化学习其实就是实现了智能体自发的与环境进行交互并且达到我们所希望的状态。这个过程就会产生很多动作,下一步动作是依靠上一步动作以及当前状态,上一步状态,以及实施动作之后的奖励所决定的

    在周志华的西瓜书中说到一点:

    智能体处在一个环境中,每个状态为智能体对当前环境的感知;智能体只能通过动作来影响环境,当智能体执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给智能体一个奖赏。

 

二. Q-learning算法

    1. 简介

    Q-learning算法是强化学习的一个算法模型。接下来详细介绍下这个算法。

    动作值函数(或称「Q 函数」)有两个输入:「状态」和「动作」。它将返回在该状态下执行该动作的未来奖励期望。

   

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值