强化学习形式与关系

在强化学习中有这么几个术语:智能体(Agent),环境(Environment),动作(Action),奖励(Reward),状态(State,有些地方称作观察,Observation)。

奖励(Reward)

在强化学习中,奖励是一个标量,它是从环境中周期性地获取的,取值可正可负,可大可小。奖励的作用是告诉智能体它做的动作到底好不好,奖励的反馈频率并没有限制,可以是在经过固定的时间步之后返回一次,也可以是在最后达到最终状态的时候返回,这种情况下,除了最后一次动作之外,其他动作对应的奖励都是0。

“强化学习”中的“强化”一词的来由是,智能体通过它获得的奖励来强化它的行为。奖励是局部的,它反映的是智能体最近的活动表现,并不是从开始到目前为止的表现。当然,某些行动能获得巨大的奖励,但并不意味着下一步仍旧能得到很好的奖励。这就像抢劫银行,如果不考虑后果,那眼前的奖励确实诱人。

智能体需要做的是,通过做一系列的动作与环境交互,使得它获得的累积奖励最大。下面用一些直观的例子来说明:

  • 金融交易:对买卖股票的交易者来说,他们的奖励就是一定数量的利润。
  • 国际象棋:这种情况下奖励是在比赛结束后获得的,是赢,是输还是平局。
  • 电脑游戏:这种奖励反馈会比较明显,通常是杀敌数量或者游戏得分。

智能体(Agent)

智能体是与环境交互的人或物,可以做特定的动作,对环境进行观察获得当前状态并获得奖励,例如上面的例子中的智能体为:

  • 金融交易:交易系统或交易者,对订单的执行做出决定。
  • 国际象棋:人类玩家或电脑玩家。
  • 电脑游戏:人类玩家或电脑玩家。

环境(Environment)

环境,可以理解成智能体执行动作的空间,大到宇宙空间,也可以小到一张棋盘。

动作(Action)

动作很好理解,就是智能体能在环境中做的事情,在强化学习中,动作分为离散动作和连续动作,比如左转右转就属于离散动作,转动30度这样的动作就属于连续动作。

状态(State)

状态同样很好理解,它是反映当前环境处于哪种状态,智能体通过观察这种状态来决定做什么动作,然后环境接收到这个动作之后,又会处于什么样的状态。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值