强化学习知识总结（一）

hacker&pxc

已于 2024-02-15 21:48:01 修改

阅读量509

点赞数 6

文章标签：机器学习人工智能

于 2024-02-15 00:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51633770/article/details/136057452

版权

本文介绍了强化学习的基本概念，包括智能体如何通过与环境交互获取状态、决策和奖励，以及随机性在过程中的影响。同时，对比了强化学习与有监督学习在数据分布和训练优化途径上的差异。

摘要由CSDN通过智能技术生成

什么是强化学习

强化学习是机器通过与环境交互来实现目标的一种计算方法

机器和环境的一轮交互是指机器在环境的一个状态下做一个动作决策，把这个动作作用到环境当中，这个环境发生相应的改变并将相应的奖励反馈和下一轮状态传回机器。机器的目标是最大化在多轮交互过程中获得的累计奖励的期望。

智能体Agent

强化学习用“智能体”这一概念表示做决策的机器

智能体和环境的交互方式：

智能体感知到环境目前所处的状态，经过自身计算给出本轮的动作，将其作用到环境中；

环境得到智能体的动作后，产生相应的即时奖励信号并发生状态转移。

三个关键概念：

感知：智能体在某种程度上感知环境的状态从而知道自己的现状

决策：智能体根据当前的状态计算出达到目标需要采取的动作的过程

奖励：环境根据状态和智能体采取的动作，产生一个标量信号作为奖励反馈

强化学习的随机性

（1）智能体决策的动作随机性

（2）环境基于当前状态和智能体动作来采样下一刻状态的随机性

强化学习的目标

智能体的整体回报：

前面提到，奖励信号是一个标量，整个交互过程中每一轮获得的奖励信号可以进行累加，形成智能体的整体回报

在强化学习中，我们关注回报的期望，并将其定义为价值，这就是强化学习中智能体学习的优化目标

有监督学习vs强化学习

（1）数据分布：有监督学习的训练数据集的数据分布是完全不变的；在强化学习中，数据经过智能体和环境的交互得到，当前智能体的训练数据来自之前的决策结果，由于策略会在训练过程中不断更新，因此对应的数据分布也会相应的改变

（2）训练优化途径：有监督学习直接通过优化模型对于数据特征的输出来优化目标，即修改目标函数而数据分布不变；强化学习则通过改变策略来调整智能体和环境交互数据的分布进而优化目标，即修改数据分布而目标函数不变

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄4年

3
原创

72
点赞

57
收藏

38
粉丝

关注

私信

热门文章

最新评论

强化学习知识总结（三）：马尔可夫决策过程
CSDN-Ada助手: 恭喜用户写了第三篇博客，内容涉及马尔可夫决策过程，这是一个深奥的话题，相信您对强化学习有着扎实的了解。在接下来的创作中，建议可以结合具体案例或者实际应用，让读者更容易理解和接受这些概念。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
强化学习知识总结（一）
CSDN-Ada助手: 恭喜你开始了博客创作，这是一个很好的开始！你的第一篇博客内容很不错，对强化学习知识进行了总结，并且给出了很多有用的信息。在下一篇博客中，我建议你可以深入探讨一些实际案例或者应用场景，让读者更好地理解强化学习的应用和意义。希望你能继续努力，写出更多有深度的内容，期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
强化学习知识总结（二）：多臂老虎机（MAB）问题
CSDN-Ada助手: 很棒的总结！继续保持写作的热情和动力。除了多臂老虎机问题，你可能还会对强化学习中的其他算法感兴趣，比如Q学习、深度强化学习等。同时，也可以尝试动手实践一些强化学习的项目，这样可以更加深入地理解理论知识。期待你未来的创作！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。