《从机器学习到深度学习》笔记（3）强化学习

最新推荐文章于 2023-12-27 18:02:20 发布

学习如逆水行舟

最新推荐文章于 2023-12-27 18:02:20 发布

阅读量395

点赞数

文章标签： sklearn tensorflow 机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kgsew/article/details/89851025

版权

强化学习是机器学习的一个独特分支，通过智能代理与环境的交互来学习最优行为模式。它由五个要素构成：智能代理、环境、状态、行为和反馈。延迟获得的奖励使得强化学习区别于有监督学习。主要应用于状态预测和控制问题，包括基于策略和基于价值的学习算法。尽管应用仍有限，但强化学习在游戏和工业控制等领域展现出潜力。

摘要由CSDN通过智能技术生成

强化学习是对英文Reinforced Learning的中文翻译，它的另一个中文名称是“增强学习”。相对于有监督学习和无监督学习，强化学习是一个相对独特的分支；前两者偏向于对数据的静态分析，后者倾向于在动态环境中寻找合理的行为决策。

强化学习的行为主体是一个在某种环境中独立运行的Agent（可以理解为“机器人”）, 其可以通过训练获得在该环境中的最佳行为模式。强化学习被看成是最接近人工智能的一个机器学习领域。

思考：为什么说强化学习是最接近人工智能的一个机器学习领域？

1. 五个要素

强化学习的场景由两个对象构成，它们是：

智能代理（Agent）：是可以采取一系列行动以达到某种目标的控制器，可以形象的将其理解为机器人大脑。比如自动驾驶的控制器、打败李世石的AlphaGo。
环境（Environment）：是Agent所能感知和控制的世界模型。对自动驾驶来说，Environment就是Agent所能感知到的路况和车本身的形式能力，对AlphaGo来说，Environment包括棋盘上的每种状态和行棋规则。

这两个对象其实定义了机器人和其所能感知到的世界。而就像人类能在自己的世界中行走、享受阳光，机器人也可以通过三种方式与其所在的环境交互：

状态（State）：是任意一个静态时刻Agent能感知到的Environment情况，相当于某一时刻人类五官能感知到的一切。
行为（Action&#

最低0.47元/天解锁文章

学习如逆水行舟

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。