强化学习-任务与奖赏(周志华)


2K - 摇臂赌博机(探索与利用 贪心法 softmax)

什么是强化学习

强化学习:一种学习过程,包含很多学习步骤,经过一段时间才能收获结果。通常等到收获后,才得出反馈结果。若将得到的好结果作为学习完成的奖赏,则在学习过程中我们执行某个操作(e.g.种瓜过程中浇水)对最终奖赏的影响,仅能得到一个当前反馈(瓜苗看起来茁壮),需要多次进行这种学习过程,才能总结出比较好的学习策略

强化学习图示强化学习图示

马尔科夫决策过程

强化学习任务通常用马尔科夫决策过程(MDP)来描述:

四元组

强化学习对应4元祖E=<X,A,P,R>,其中P:X×A×X→R指定了状态转移概率
R:X×A×X→R指定而奖赏(在有的应用中,奖赏函数可能仅与转态转移有关即R:X×X→R)

  • 机器处于环境E,状态空间为X,每个状态x∈X是机器感知到的环境描述(e.g.在种瓜任务是当前瓜苗长势的描述),机器能采取的动作构成了动作空间A(e.g.浇水、施肥…);
  • 若某个动作a∈A作用在当前状态x上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态(e.g.瓜苗状态为缺水,若选择动作浇水,则瓜苗长势会发生变化,有概率恢复或无法恢复);
  • 在转移到另一个状态的同时,环境会根据潜在奖赏函数R反馈给机器一个奖赏(e.g.瓜苗健康+1,凋零-10,最终种出好瓜+100)
    给西瓜浇水问题的马尔科夫决策

’机器‘与’环境‘界限

:在环境中状态的转移、奖赏返回不受机器控制,机器只能通过选择要执行的动作来影响环境,也只能通过观察转移后的状态和返回的奖赏来感知环境

策略两种表示方法及奖赏π

  • 机器通过环境中不断学习得到一个策略,在状态x下能得知要执行的动作a=π(x).策略两种表示方法:

1.确定性策略常用表示π:X→A
2.随机策略常用表示π:X×A→R,π(x,a)为状态x下选择动作a的概率,且在这里插入图片描述

  • 策略优劣取决于长期执行策略后得出的累计奖赏。在强化学习中目的是找到能是长期累计奖赏最大化的策略。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值