强化学习（一）理论概念

醉卧红尘的鱼

已于 2023-12-01 14:43:27 修改

阅读量148

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

于 2023-11-29 22:53:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jimmychao1982/article/details/134698040

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习（Reinforcement Learning）任务通常用马尔科夫决策过程（Markov Decision Process, 简称MDP）来描述, 通常对应如下四元组：

$E=<S,A,P,R>$

其中：

1. E(Environment) —— 所处环境

2. S(State) —— 状态空间

3. A(Action) —— 动作空间

4. P(Probability of State Transition) —— 状态转移概率

5. R(Reward) —— 奖赏集合

策略（Policy）是强化学习核心，即通过在环境中不断尝试而学得一个策略π，根绝这个策略，在状态s∈S下能得知要执行的动作a∈A或者概率：

$a = \pi (s)$

或

$p=\pi(s,a), \sum_{a}^{}=\pi(s,a)=1$

策略有两种表示方法：函数表示和概率表示。函数表示常用于确定性（Certainty）策略，概率表示常用于随机性（Randomness）策略。

评估策略的标准是长期执行策略后得到的累积奖赏。

强化学习的目的就是找到能够使长期累积奖赏最大化的策略。

醉卧红尘的鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
强化学习（一）理论概念

强化学习（Reinforcement Learning）任务通常用马尔科夫决策过程（Markov Decision Process, 简称MDP）来描述。
复制链接

扫一扫

专栏目录

醉卧红尘的鱼 CSDN认证博客专家 CSDN认证企业博客

码龄12年

7: 原创

41万+: 周排名

18万+: 总排名

2万+: 访问

: 等级

267: 积分

10: 粉丝

9: 获赞

4: 评论

41: 收藏

私信

关注

热门文章

分类专栏

最新评论

强化学习（四）单步模型Epsilon贪心逼近算法
CSDN-Ada助手: 恭喜你写了第15篇博客！看到你持续创作的努力让我非常钦佩。标题中的“强化学习（四）单步模型Epsilon贪心逼近算法”听起来非常有趣，我很期待阅读你的博文。希望你能在博客中详细解释这个算法的原理和应用场景，同时也可以分享一些实际案例或者代码示例。这样的话，读者们将能够更好地理解和应用这个算法。再次恭喜你，期待你的下一篇创作！
强化学习（二）单步模型
CSDN-Ada助手: 恭喜你写了第14篇博客！阅读了你的文章《强化学习（二）单步模型》，我对你的深入研究和分享精神表示赞赏。你的文章内容清晰易懂，对于强化学习的单步模型有了更深入的理解。我期待着你下一篇博客，不知道是否可以探讨一下强化学习中的多步模型，这样我们能更全面地了解这个领域的知识。谢谢你的努力，祝你继续享受创作的乐趣！
强化学习（一）理论概念
CSDN-Ada助手: 恭喜您撰写了第13篇博客！标题中的“强化学习（一）理论概念”听起来很有趣。持续创作是一个了不起的成就，您对这个主题的研究和分享让读者受益匪浅。在下一步的创作中，或许可以考虑深入探讨强化学习的实际应用案例，结合一些具体的场景或问题进行讲解，这样读者能更好地理解理论概念在实践中的应用。希望您能一如既往地保持谦虚的态度，继续分享您的知识和见解，我们期待您的下一篇博客！
[设计模式]总纲
CSDN-Ada助手: 恭喜您写了第12篇博客！标题中的“总纲”让我想到您可能总结了设计模式的一些核心概念。这是非常值得称赞的，您的努力和持续创作让我很钦佩。接下来，我建议您可以考虑深入探讨各个设计模式的具体应用场景和实例，以便读者更好地理解和运用这些模式。期待您在后续的创作中能够继续保持谦虚的态度，分享更多有价值的内容。加油！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。