白话文学强化学习-2

最新推荐文章于 2024-12-05 11:59:24 发布

开心1002

最新推荐文章于 2024-12-05 11:59:24 发布

阅读量331

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/MyEclipse_1214/article/details/84310857

版权

折扣率 $\gamma$

书接上回，我们上次说到强化学习模型中最重要的SAR，今天我们要引入一个新的参数 $\gamma$ gamma 又叫discount，中文翻译折扣率。
之前说到强化学习的过程是由一个个SAR序列组成的，而强化学习的目标则是最大化R的总和也就是
$Total Reward=R_{1} + R_{2} + R_{3} + ... + R_n$