### 策略梯度:一种替代方法
▪ 与已经熟悉的Q-learning进行对比,概述该方法的动机、优势和劣势。
▪ 从被称为REINFORCE的简单策略梯度方法开始,尝试将其应用于CartPole环境,并将其与深度Q-network(DQN)方法进行比较。
交叉熵方法即使使用如此简单的假设也可以工作,但是使用Q(s,a)而不是仅使用0和1进行训练会有明显的提升。因为进行了更细粒度的片段分离。例如,比起奖励是1的片段中的状态转移,总奖励为10的片段的状态转移应该对梯度有更多的贡献。使用Q(s,a)而不是仅使用0或1常数的第二个原因,增加片段开始时优质动作的概率,并减少更接近片段结尾的动作(因为Q(s,a)包含折扣因子,所以会自动考虑较长动作序列的不确定性)。这是REINFORCE方法的思想。其步骤如下:
1)用随机权重初始化网络。
2)运行N个完整的片段,保存其(s,a,r,s')状态转移。
3)对于每个片段k的每一步t,计算后续步的带折扣的总奖励:。
4)计算所有状态转移的损失函数:。
5)执行SGD更新权重,以最小化损失。
6)从步骤2开始重复,直到收敛。
**上述算法在几个重要方面与Q-learning不同:**
▪ 不需要显式的探索。在Q-learning中,使用ε-greedy策略来探索环境,并防止智能体陷入非最优策略的困境。现在,利用神经网络返回的概率,可以实现自动探索。在开始时,使用随机权重初始化神经网络,它会返回均匀的概率分布。此分布对应于智能体的随机行为。
▪ 不需