强化学习四要素

强化学习主要包含4个元素:智能体(Agent),环境状态(State),行动(Action),反馈(Reward),它们之间的关系如图1.8所示,详细定义如下所示。图1.8 强化学习的4个元素

● 智能体:执行任务的客体,只能通过与环境互动来提升策略。

● 环境状态:在每一个时间节点,智能体所处环境的表示。

● 行动:在每一个环境状态中,智能体可以采取的动作。

● 反馈:每到一个环境状态,智能体就有可能会收到一个反馈。

2.强化学习算法的目标强化学习算法的目标是获得最多的累计奖励(正反馈)。以“幼童学习走路”为例:幼童学习走路时,没有人指导他应该如何完成“走路”,他需要通过不断的尝试和外界对他的反馈来学习。在此例中,如图1.8所示,幼童即为Agent,“走路”这个任务实际上包含站起来、保持平衡、迈出左腿、迈出右腿等几个阶段……幼童采取行动进行尝试,当他成功完成某个子任务时(如站起来),就会获得一个巧克力(正反馈);当他做出了错误的动作时,他会被轻轻拍打一下(负反馈)。幼童通过不断尝试和调整,找出了一套最佳的策略,这套策略能使他获得最多的巧克力。显然,他学习的这套策略能使他顺利完成“走路”这个任务。

3.强化学习的特征强化学习主要包括以下两个特征。1)没有监督者,只有一个反馈信号。2)反馈是延迟的,不是立即生成的。强化学习是序列学习,时间在强化学习中具有重要的意义;Agent的行为会影响以后所有的决策。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值