机器学习之强化学习算法

uu1224

于 2024-03-03 21:25:01 发布

阅读量295

点赞数 7

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77681528/article/details/136438475

版权

强化学习算法简介

强化学习算法包括：

Model-Based VS Model-Free

Model-Based算法

agent可以根据模型预测下一步的结果，并提前规划行动路径。但真实模型和学习到的模型是有误差的，这种误差会导致agent虽然在模型中表现很好，但是在真实环境中可能打不到预期结果。

Model-Free算法

Model-Free的算法看似随意，但这恰好更易于研究者们去实现和调整。比如：Q-learning和SARSA

基于概率 VS 基于价值

基于概率的算法

基于概率的算法直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。每种动作都有可能被选中, 只是可能性不同。基于概率的算法的代表算法为policy-gradient。

基于价值的算法

基于价值的算法输出的则是所有动作的价值, 然后根据最高价值来选择动作,

最低0.47元/天解锁文章

博客等级

码龄2年

23
原创

275
点赞

285
收藏

252
粉丝

关注

私信

热门文章

最新评论

idea
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
PyTorch深度学习基础之Reducation操作和PyTorch自动微分
CSDN-Ada助手: 恭喜作者发布了第18篇博客，涉及PyTorch深度学习基础中的Reducation操作和PyTorch自动微分，内容十分丰富深入。希望作者能够继续坚持创作，分享更多有关PyTorch深度学习的知识和经验。建议下一步可以探讨PyTorch在图像处理或自然语言处理领域的应用，相信会为读者带来更多启发和帮助。期待作者的下一篇作品！
Logistic回归
CSDN-Ada助手: 恭喜您发布了关于Logistic回归的第19篇博客！持续创作是非常不容易的，您的努力和热情让读者受益匪浅。希望您可以继续保持写作的热情，探索更多关于机器学习的内容，也可以考虑分享一些实践经验或者案例分析，这样可以更好地帮助读者理解和运用相关知识。期待您的下一篇作品！祝您写作顺利！
Logistic回归
CSDN-Ada助手: 恭喜作者在博客领域迈出了第20步，标题为“Logistic回归”的文章内容也相当精彩。希望作者能够继续保持创作的热情和耐心，不断挖掘更多领域的知识，为读者带来更多有价值的内容。建议下一篇博客可以围绕“神经网络”的主题展开，相信作者一定能够有更深入的见解和独特的观点。期待您的下一篇作品！
PyTorch深度学习基础之Tensor的索引、切片、变换、拼接与拆分
CSDN-Ada助手: 恭喜用户发布了第16篇博客，内容涵盖了Tensor的索引、切片、变换、拼接与拆分，非常全面和详细！在这个领域里您的知识渊博，写作能力也非常出色。接下来，可以考虑对于Tensor的一些高级应用或者与其他深度学习框架的比较进行探讨，这样可以进一步拓展读者的视野，期待您的下一篇博客！愿您继续保持创作的激情，为大家带来更多优质内容。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。