西瓜书16-强化学习

16.1 任务与奖赏

我们考虑如何种西瓜,经过浇水除草施肥,经过一段时间后才能收获西瓜,通常要收获后,我们才知道种出的瓜好不好,在种瓜过程中我们执行某个操作(如施肥)时,并不能立即获得最终奖赏(好瓜),仅能得到一个当前反馈(瓜苗更加健壮),我们需要多次种瓜,在种瓜过程中不断摸索,才能总结出较好的种瓜策略,这个过程抽象出来,就是“强化学习”
在这里插入图片描述
强化学习任务通常用马尔可夫决策过程来描述:机器处于环境E中,状态空间为X,其中每个状态(x属于X)是机器感知到的环境的描述,如在种瓜任务上就是对当前瓜苗长势的描述。机器能采取的动作构成了动作空间A,如种瓜过程中有浇水、施肥、使用不同的农药等多种可供选择的动作;若某个动作a作用在当前状态x上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态,如瓜苗状态为缺水,若选择动作浇水,则瓜苗长势会发生变化…不想写了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值