RL
文章平均质量分 58
Katniss的名字被占用
这个作者很懒,什么都没留下…
展开
-
【强化学习】强化学习致命三要素deadly triad
如果包含这三个要素,很有可能不稳定性就难以避免,如果只出现两个要素,那么不稳定性就是有可能避免的。当这三个因素同时出现时,系统就存在收敛性问题,我们称之为死亡三角。这个问题原因没有一个确定的答案,但是有一些可能的解释。原创 2023-04-06 14:46:43 · 1028 阅读 · 0 评论 -
【强化学习】DQN与Double DQN
在算法中,不断的减小。原创 2023-04-06 14:05:56 · 756 阅读 · 0 评论 -
【强化学习】马尔可夫决策过程MDP
MDP=MDP=MDP=,其中:Agent通过rtr_trt学习策略,agent通过学习到的策略针对当前环境状态sts_tst采取相应动作ata_tat,该动作与环境交互后,环境中的状态将转移到新的状态st+1s_{t+1}st+1,同时获得奖励rt+1r_{t+1}rt+1。Agent的目标是最大化累积奖励的期望。策略用原创 2023-02-11 14:04:29 · 672 阅读 · 0 评论 -
【强化学习】model-based和model-free的理解和误区
model-based和model-free的理解和误区原创 2023-01-13 15:54:29 · 869 阅读 · 1 评论 -
【Gym】向量化环境
参考内容原创 2022-12-17 20:15:52 · 127 阅读 · 0 评论