写在前面的话
个人学习笔记,仅供参考。
强化学习是什么?
强化学习:
1、机器学习的子类
2、从错误中学习,更新行为准则
方法:打分(从分数中做决定,拿高分,避免低分,分数导向性)
分数导向性:类似于监督学习的标签,只是强化学习的数据没有标签。
通过价值选行为:Q Learning/Sarsa/Deep Q Network
直接选行为:Policy Gradients
想象环境从中学习:Model based RL
强化学习方法分类
是否理解环境
不理解环境(Model-Free RL):给什么就是什么,只能在真实的环境下进行。
理解环境(Model-Based RL):理解了环境,用模型来表示环境,既可以在模型中进行也可以在环境中进行。
注:Model-Based RL可用Model-Free RL中的方法,如Q Learning/Sarsa/Policy Gradients。
概率与价值
基于概率:通过感官分析所处的环境,直接输出下一步采取各种行为的概率,根据概率采取行动。Policy Gradients
基于价值:与上面相似,不过是得到每种行动的价值,根据最高的价值采取相应的行动。Q Learning/Sarsa
区别:
1、对于不连续的动作,基于概率的方法中所有动作都可能被选择执行。基于价值的方法中只有最高的价值对应的行动被执行。
2、对于连续的动作,基于价值的方法就不能用了。基于概率的方法会呈现一个分布。
注:两者可以结合起来生成一个更加强大的方法:Actor-Critic。该方法先基于概率做出动作,对做出的动作进行打分给出价值,从而加速学习过程。
回合与单步
回合更新(Monte-Carlo update):从游戏开始到结束,总结游戏中所有的转折点再更新行为准则。基础版Policy Gradients/Monte-Carlo Learning
单步更新(Temporal-Difference update):在游戏进行中每一步都在更新,不用等结束可以边玩边学。Q Learning/Sarsa/升级版Policy Gradients
在线与离线
在线学习(on-Policy):必须本人在场,本人边玩边学。Sarsa/Sarsa(λ)
离线学习(off-Policy):可以是自己也可以是看别人玩。学习别人的行为准则,从他人的经验中学习。也可以不用边玩边学,白天存储玩的记忆晚上再学。Q Learning/Deep Q Network