value-based | policy-based | |
---|---|---|
代表作 | DQN, SARSA | policy gradient |
output | Q(s,a)->greedy->action | p(a|s)->sample->action |
key steps | * policy evaluation * policy improvement | * 建模策略函数
π
θ
\pi_{\theta}
πθ * 构建 advantage 函数 * 梯度上升 |
key method | 策略评估:值函数的求解问题(期望的计算:MC和TD) | REINFORCEMENT算法对该优势函数的梯度进行估计 |
简单描述 | 目的是找到正确评估策略的值函数(Q(s,a)和V(s)),根据这个通过“探索和利用”选择某一状态最好的行为(这个优化的想法可能更偏直觉,认为贪婪是最优) | 目标是是一个episode的累积奖励最大化,所以用似然函数构建了一个目标函数,采用梯度上升的方法进行优化(想法更偏数学优化) |
优缺点 | 缺点:一般应用在状态空间为离散的情况 |
(持续跟新…)