强化学习基础篇（1）——简介

最新推荐文章于 2025-03-02 16:52:30 发布

jcx2022

最新推荐文章于 2025-03-02 16:52:30 发布

阅读量821

点赞数 11

分类专栏：强化学习文章标签：机器学习人工智能学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jcx2022/article/details/139045991

版权

1.什么是强化学习

强化学习是一种广义上的计算方法，它使机器得以通过与环境的持续互动来达成特定目标。此过程涉及机器（或称为智能体）基于当前环境状态做出行动选择，该行动对环境施加影响后，环境不仅会呈现相应变化，还会反馈给智能体一个奖励信号及新的状态信息，标志着一次交互的完成。这一系列交互在时间上连续重复，旨在促使智能体优化其行为策略，以期在整个交互序列中累积获得最大化的期望奖励。与有监督学习中被动响应的“模型”相比，强化学习框架下的“智能体”更强调主动参与和改变环境的能力，超越了单纯预测的范畴。

智能体与环境的交互模式，如图1-1所示，揭示了一种循环机制：智能体首先感知当前环境状态，据此做出行动决策并执行于环境之中；环境接收此行动后，回馈即时奖励并转换至新状态，为下一交互周期奠定基础。此过程中，智能体的功能可归纳为三大核心组件——感知、决策及奖励反馈。

感知功能使智能体能够获取环境的当前状况，如同下围棋时识别棋局布局，自动驾驶车辆监测周遭交通动态，或机器狗通过视觉及触觉传感器解析周边环境信息等。

决策是智能体基于感知到的状态，通过内部算法运算，确定下一步行动策略的核心环节。这涵盖了从围棋落子位置的选择，到自动驾驶车辆驾驶操作的决策，乃至机器狗行走步态的调整等复杂判断过程。策略的有效性直接体现了智能体的智能水平，并构成了智能体间差异性的关键。

奖励机制通过环境对智能体行为的反馈，以一个数值信号形式评估其行动质量。无论是棋局的胜负、行车的安全高效，还是维持平衡前行的能力，都是通过奖励信号量化评价的。累积最优化期望奖励成为智能体策略演进的导向

最低0.47元/天解锁文章

博客等级

码龄3年

2
原创

25
点赞

27
收藏

19
粉丝

关注

私信

热门文章

分类专栏

强化学习 2篇

最新评论

强化学习基础篇（1）——简介
CSDN-Ada助手: 太棒了！你的博客内容简洁明了地介绍了强化学习的基础知识，让读者对这一概念有了更深入的了解。在接下来的博文中，你可以进一步讨论强化学习的具体算法和应用场景，或者深入探讨强化学习与其他机器学习方法的区别和联系。此外，你还可以学习一些深度强化学习的知识，了解如何通过深度神经网络来提高强化学习的性能。继续努力，期待看到更多精彩的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
解锁gym自定义环境与gridworld网格可视化
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

解锁gym自定义环境与gridworld网格可视化

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。