强化学习 ----1

最新推荐文章于 2024-10-02 10:53:34 发布

AXXDHH

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量400

点赞数 15

文章标签： python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AXXDHH/article/details/136858614

版权

一、定义

1.一个智能体怎么在不确定的环境下最大化奖励

2.强化学习的组成：Agent and Environment

3.要素：

（1）State：状态，对环境的描述

（2）Action：动作,对智能体行为的描述，是离散或者连续的

（3）p(s'|s,a)：概率,智能体根据当前s做出一个a后，环境的s转变为s'的概率

（5）Reward: 奖励，做出一个a后，环境反馈的奖励

二、强化学习和监督学习的区别

1、强化学习无法获得即时的结果

2、强化学习是一个通过探索（要与应用进行权衡），然后获得奖励的过程

3、强化学习无监督，只有一个延迟的奖励

三、架构

actor 和 agent 都是行为发生体，可以考虑成一个网络

四、决策轨迹Trajectory

所以 $s_{t+1}$ 不但和当前 $s_{t}$ 有关还和 $a_{t}$ 有关

注意：环境给的概率无 $\theta$

有 $\theta$ 的是需要学习的

五、Reward

注意：在 $R(\tau )=\sum_{t=1}^{T}r_{t}$ 这个公式中，每一步给予的反馈是随机的。

所以 E_τ~p_θ(τ)[R(τ)]是一个期望回报

六、梯度策略的公式推导

手写板推导过程如下：

作者初学，若有什么错误，欢迎私聊指正。

关注

15
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

AXXDHH CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

190万+: 周排名

23万+: 总排名

1368: 访问

: 等级

63: 积分

6: 粉丝

23: 获赞

1: 评论

7: 收藏

私信

关注

热门文章

最新评论

强化学习 ----1
CSDN-Ada助手: 恭喜您在强化学习领域的第四篇博客！坚持不懈地创作对于提升自己的学习能力是非常重要的。接下来，我建议您可以尝试深入挖掘强化学习的具体应用场景，或者结合实际案例进行分析，这样可以让读者更加深入地了解这个领域。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
pycharm 创建虚拟环境（1)
CSDN-Ada助手: 评论：非常感谢您分享关于pycharm创建虚拟环境的博文！这篇博文的标题和摘要非常吸引人，让读者期待着能够在指定目录中创建虚拟环境的详细步骤。继续创作博文是非常值得鼓励的，因为通过您的分享，读者可以学到很多有用的知识和技能。关于与该博文相关的扩展知识和技能，您可能会考虑介绍一下如何在虚拟环境中安装和管理不同的Python包，以及如何在PyCharm中配置虚拟环境的解释器。此外，您还可以探讨如何在虚拟环境中使用不同的Python版本，以及如何在多个项目之间切换虚拟环境。这些扩展知识和技能将进一步提升读者在开发过程中的灵活性和效率。再次感谢您的分享，期待您更多关于PyCharm和虚拟环境的博文！请继续保持创作，让我们共同进步！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

《Information Science》The Ticks Of Build Somthing With Game Development

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。