机器学习之强化学习

最新推荐文章于 2024-08-11 18:21:52 发布

uu1224

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量548

点赞数 5

文章标签：机器学习人工智能深度学习自然语言处理计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77681528/article/details/136438205

版权

强化学习

强化学习是机器学习的一个重要分支，它与非监督学习、监督学习并列为机器学习的三类主要学习方法。

强化学习强调如何基于环境行动，以取得最大化的预期利益，所以强化学习可以被理解为决策问题。它是多学科多领域交叉的产物，其灵感来自于心理学的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

强化学习的应用范围非常广泛，各领域对它的研究重点各有不同。

强化学习的应用

强化学习（reinforcement learning）应用：机器人、对话系统，甚至开发视频游戏的人工智能（AI）。

深度强化学习（deep reinforcement learning）将深度学习应用于强化学习的问题，是非常热门的研究领域。

强化学习的例子：突破性的深度Q网络（Q-network）在雅达利游戏中仅使用视觉输入就击败了人类；以及 AlphaGo 程序在棋盘游戏围棋中击败了世界冠军。

强化学习的四个因素：

强化学习的四个因素是：智能体、环境、行动、反馈

智能体是执行任务的客体，只能通过与环境互动来提升策略。

在每一个环境状态中，智能体可以采取的动作即为行动。

在每一个时间节点，智能体所处的环境的表示即为环境状态。

每到一个环境状态，智能体就有可能会收到一个反馈。

智能体在一系列的时间步骤上与环境交互。在每个特定时间点，智能体从环境接收一些反馈（观测），并且必须选择一个行动（动作），然后通过某种机制（有时称为执行器）将其传输回环境，最后智能体从环境中获得奖励。此后新一轮循环开始，智能体接收后续观察，并选择后续操作，依此类推。

强化学习算法的目标

强化学习算法的目标就是获得最多的累计奖励（正反馈）。

以“幼童学习走路”为例：幼童需要自主学习走路，没有人指导他应该如何完成“走路”，他需要通过不断的尝试和外界对他的反馈来学习走路。

强化学习的特征

1.没有明确的标签 2.延迟回报 3.动态环境

没有明确的标签：强化学习没有明确的标签来告诉智能体什么是正确的动作。必须通过与环境的交互来学习。

延迟回报：奖励信号可能在未来的时间点才会到达，因此代理需要考虑长期回报而不只是当前的奖励。

动态环境：环境可能是动态变化的，智能体必须能够适应环境的变化并调整策略。

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

uu1224 CSDN认证博客专家 CSDN认证企业博客

码龄1年

23: 原创

120万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

510: 积分

252: 粉丝

275: 获赞

14: 评论

282: 收藏

私信

关注

热门文章

最新评论

idea
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
PyTorch深度学习基础之Reducation操作和PyTorch自动微分
CSDN-Ada助手: 恭喜作者发布了第18篇博客，涉及PyTorch深度学习基础中的Reducation操作和PyTorch自动微分，内容十分丰富深入。希望作者能够继续坚持创作，分享更多有关PyTorch深度学习的知识和经验。建议下一步可以探讨PyTorch在图像处理或自然语言处理领域的应用，相信会为读者带来更多启发和帮助。期待作者的下一篇作品！
Logistic回归
CSDN-Ada助手: 恭喜您发布了关于Logistic回归的第19篇博客！持续创作是非常不容易的，您的努力和热情让读者受益匪浅。希望您可以继续保持写作的热情，探索更多关于机器学习的内容，也可以考虑分享一些实践经验或者案例分析，这样可以更好地帮助读者理解和运用相关知识。期待您的下一篇作品！祝您写作顺利！
Logistic回归
CSDN-Ada助手: 恭喜作者在博客领域迈出了第20步，标题为“Logistic回归”的文章内容也相当精彩。希望作者能够继续保持创作的热情和耐心，不断挖掘更多领域的知识，为读者带来更多有价值的内容。建议下一篇博客可以围绕“神经网络”的主题展开，相信作者一定能够有更深入的见解和独特的观点。期待您的下一篇作品！
Caffe、TensorFlow、PyTorch三者比较
ha_lydms: 作者的文字总是能够打动我的心灵，让我感到内心温暖和安慰。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。