强化学习&基础1.1 | 智能体与环境交互过程

最新推荐文章于 2025-03-30 14:39:03 发布

ASKCOS

最新推荐文章于 2025-03-30 14:39:03 发布

阅读量8.3k

点赞数 1

分类专栏：游戏AI 文章标签：强化学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43236007/article/details/89292444

版权

游戏AI 专栏收录该内容

43 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了强化学习的基本概念，强调了智能体与环境交互的重要性。在这个过程中，智能体根据环境状态采取行动，环境则相应地发生变化并给予奖励或惩罚。目标是通过不断学习优化策略，最大化累积奖励的期望值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习的过程是agent与环境不断交互的过程，从环境得到反馈，然后来改变自己的行动。
在这里插入图片描述
智能体首先接受环境的状态S0

智能体在S0的环境下采取行动A0

环境收到智能体的行动后从S0 变化到S1

环境对智能体的行为做出回报reward（可正可负，表示奖励或惩罚），R1

智能体收到奖励后对环境采取行动A1
在这里插入图片描述
环境状态接收到动作A1后由状态S1变化到S2，并且给予奖励R2
智能体与环境交互的过程为
状态S0 采取A0
得到R1 》状态S1 采取A1
得到R2 》状态S2 采取A2
得到R3 》状态S3 采取A3
得到R4…持续下去

目标为最大化期望累计奖励reward也就是将所有到达目标的reward的期望加起来的最大值。

如果需要定义一个强化学习问题，需要指定状态、动作和奖励并制定环境规则。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ASKCOS 你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。