强化学习四要素

超华东算法王

于 2024-05-09 19:12:56 发布

阅读量1.2k

点赞数 3

文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_69378371/article/details/138627338

版权

强化学习主要包含4个元素：智能体（Agent），环境状态（State），行动（Action），反馈（Reward），它们之间的关系如图1.8所示，详细定义如下所示。图1.8 强化学习的4个元素

● 智能体：执行任务的客体，只能通过与环境互动来提升策略。

● 环境状态：在每一个时间节点，智能体所处环境的表示。

● 行动：在每一个环境状态中，智能体可以采取的动作。

● 反馈：每到一个环境状态，智能体就有可能会收到一个反馈。

2.强化学习算法的目标强化学习算法的目标是获得最多的累计奖励（正反馈）。以“幼童学习走路”为例：幼童学习走路时，没有人指导他应该如何完成“走路”，他需要通过不断的尝试和外界对他的反馈来学习。在此例中，如图1.8所示，幼童即为Agent，“走路”这个任务实际上包含站起来、保持平衡、迈出左腿、迈出右腿等几个阶段……幼童采取行动进行尝试，当他成功完成某个子任务时（如站起来），就会获得一个巧克力（正反馈）；当他做出了错误的动作时，他会被轻轻拍打一下（负反馈）。幼童通过不断尝试和调整，找出了一套最佳的策略，这套策略能使他获得最多的巧克力。显然，他学习的这套策略能使他顺利完成“走路”这个任务。

3.强化学习的特征强化学习主要包括以下两个特征。1）没有监督者，只有一个反馈信号。2）反馈是延迟的，不是立即生成的。强化学习是序列学习，时间在强化学习中具有重要的意义；Agent的行为会影响以后所有的决策。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。