强化学习算法简介
强化学习算法包括:
Model-Based VS Model-Free
Model-Based算法
agent可以根据模型预测下一步的结果,并提前规划行动路径。但真实模型和学习到的模型是有误差的,这种误差会导致agent虽然在模型中表现很好,但是在真实环境中可能打不到预期结果。
Model-Free算法
Model-Free的算法看似随意,但这恰好更易于研究者们去实现和调整。比如:Q-learning和SARSA
基于概率 VS 基于价值
基于概率的算法
基于概率的算法直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。每种动作都有可能被选中, 只是可能性不同。基于概率的算法的代表算法为policy-gradient。
基于价值的算法
基于价值的算法输出的则是所有动作的价值, 然后根据最高价值来选择动作,