目录
REINFORCE是强化学习中用于改进决策方式的一种方法。它通过尝试各种行动,然后根据随后获得的总奖励来调整这些行动的概率进行学习。
与其他估计每个行动有多好的方法不同,REINFORCE直接学习选择行动的最佳方式。这使得它在存在许多可能行动或连续选择,以及难以估计每个行动价值的任务中特别有用。
REINFORCE的工作原理
REINFORCE算法按以下步骤工作:
- 收集情节:智能体根据当前策略与环境进行固定步数的交互,或直到一个情节结束。这会生成一个由状态、行动和奖励组成的轨迹。
- 计算回报:对于每个时间步$t$,计算回报$G_t$,它是从时间$t$开始获得的总奖励。通常,这是奖励的折扣总和: