【强化学习】第三章:有限马尔可夫决策过程

3.1 “智能体-环境”交互接口

下面先介绍一些基本的MDP概念。

  1. 智能体(agent):用来学习并作决定的一个机器。可以是一个自动行走的机器人;可以是下围棋的阿法尔狗;也可以是一台自动驾驶的汽车。
  2. 环境(environment):智能体以外并且与智能体有交互的任何东西都可以称之为环境。
  3. 状态(state):所有可以用的信息(一般都是智能体所观测到的环境的信息),智能体可以用来决定下一步反应以实现预设的目标。比如说自动驾驶的汽车观察到前方五米有一个小男孩以5m/s的速度跑过来,那么为了防止撞到小男孩可以用来做出下一步行动的5米、5m/s和一个男孩向我(也就是智能汽车)跑来这三个信息都可以称之为状态。
  4. 动作(action):智能体根据自己预设的程序根据当前的状态所作出的反应,并且作用到环境,使环境发生改变,同时也会使自己发生改变。
  5. 收益(reward):当智能体做出一些动作后,环境和自身的状态都可能会发生改变,根据改变后的状态,我么人类可以给智能体一定的反馈,这个反馈可以是正也可以是负,但统称之为收益。这也是智能体在自主学习的过程中想要最大化的一个参数,在实现收益最大化的同时实现自身的预设功能。
    在这里插入图片描述如上图所示是智能体和环境之间的一个交互过程。在时刻t,智能体观测到环境的一个状态St,并且做出一个动作At。在下一个时刻t+1,智能体收到一个收益Rt+1,并且观测到新的状态St+1
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值