折扣率 γ \gamma γ 书接上回,我们上次说到强化学习模型中最重要的SAR,今天我们要引入一个新的参数 γ \gamma γ gamma 又叫discount,中文翻译折扣率。 之前说到强化学习的过程是由一个个SAR序列组成的,而强化学习的目标则是最大化R的总和也就是 T o t a l R e w a r d = R 1 + R 2 + R 3 + . . . + R n Total Reward=R_{1} + R_{2} + R_{3} + ... + R_n TotalReward=R1+R2+