强化学习入门（一）

最新推荐文章于 2024-03-06 10:19:54 发布

粥粥粥少女的拧发条鸟

最新推荐文章于 2024-03-06 10:19:54 发布

阅读量2k

点赞数 1

分类专栏：强化学习文章标签：矩阵概率论算法人工智能

本文链接：https://blog.csdn.net/qq_41691212/article/details/121393558

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习入门（一）

写在前面的话
强化学习是什么？
强化学习方法分类

写在前面的话

个人学习笔记，仅供参考。

强化学习是什么？

强化学习：
1、机器学习的子类
2、从错误中学习，更新行为准则

方法：打分（从分数中做决定，拿高分，避免低分，分数导向性）

分数导向性：类似于监督学习的标签，只是强化学习的数据没有标签。

通过价值选行为：Q Learning/Sarsa/Deep Q Network
直接选行为：Policy Gradients
想象环境从中学习：Model based RL

强化学习方法分类

是否理解环境

不理解环境（Model-Free RL）：给什么就是什么，只能在真实的环境下进行。
理解环境（Model-Based RL）：理解了环境，用模型来表示环境，既可以在模型中进行也可以在环境中进行。

注：Model-Based RL可用Model-Free RL中的方法，如Q Learning/Sarsa/Policy Gradients。

概率与价值

基于概率：通过感官分析所处的环境，直接输出下一步采取各种行为的概率，根据概率采取行动。Policy Gradients
基于价值：与上面相似，不过是得到每种行动的价值，根据最高的价值采取相应的行动。Q Learning/Sarsa
区别：
1、对于不连续的动作，基于概率的方法中所有动作都可能被选择执行。基于价值的方法中只有最高的价值对应的行动被执行。
2、对于连续的动作，基于价值的方法就不能用了。基于概率的方法会呈现一个分布。

注：两者可以结合起来生成一个更加强大的方法：Actor-Critic。该方法先基于概率做出动作，对做出的动作进行打分给出价值，从而加速学习过程。

回合与单步

回合更新（Monte-Carlo update）：从游戏开始到结束，总结游戏中所有的转折点再更新行为准则。基础版Policy Gradients/Monte-Carlo Learning
单步更新（Temporal-Difference update）：在游戏进行中每一步都在更新，不用等结束可以边玩边学。Q Learning/Sarsa/升级版Policy Gradients

在线与离线

在线学习（on-Policy）：必须本人在场，本人边玩边学。Sarsa/Sarsa(λ)
离线学习（off-Policy）：可以是自己也可以是看别人玩。学习别人的行为准则，从他人的经验中学习。也可以不用边玩边学，白天存储玩的记忆晚上再学。Q Learning/Deep Q Network

粥粥粥少女的拧发条鸟

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习入门（一）

强化学习入门（一）写在前面的话强化学习是什么？强化学习方法分类是否理解环境概率与价值回合与单步在线与离线写在前面的话个人学习笔记，仅供参考。强化学习是什么？强化学习：1、机器学习的子类2、从错误中学习，更新行为准则方法：打分（从分数中做决定，拿高分，避免低分，分数导向性）分数导向性：类似于监督学习的标签，只是强化学习的数据没有标签。通过价值选行为：Q Learning/Sarsa/Deep Q Network直接选行为：Policy Gradients想象环境从中学习：Model ba
复制链接

扫一扫