强化学习&基础1.1 | 智能体与环境交互过程

本文介绍了强化学习的基本概念,强调了智能体与环境交互的重要性。在这个过程中,智能体根据环境状态采取行动,环境则相应地发生变化并给予奖励或惩罚。目标是通过不断学习优化策略,最大化累积奖励的期望值。
摘要由CSDN通过智能技术生成

强化学习的过程是agent与环境不断交互的过程,从环境得到反馈,然后来改变自己的行动。
在这里插入图片描述
智能体首先接受环境的状态S0
在这里插入图片描述
智能体在S0的环境下采取行动A0
在这里插入图片描述
环境收到智能体的行动后从S0 变化到S1
在这里插入图片描述
环境对智能体的行为做出回报reward(可正可负,表示奖励或惩罚),R1
在这里插入图片描述
智能体收到奖励后对环境采取行动A1
在这里插入图片描述
环境状态接收到动作A1后由状态S1变化到S2,并且给予奖励R2
智能体与环境交互的过程为
状态S0 采取A0
得到R1 》状态S1 采取A1
得到R2 》状态S2 采取A2
得到R3 》状态S3 采取A3
得到R4…持续下去

目标为最大化期望累计奖励reward也就是将所有到达目标的reward的期望加起来的最大值。

如果需要定义一个强化学习问题,需要指定状态、动作和奖励并制定环境规则。

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ASKCOS

你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值