DQN(基本概念和进阶技巧)
与神经网络技术,并采用了目标网络和经历回放的方法进行网络的训练。在Q-learning中,使用表格来存储每个状态s下采取动作a获得的奖励,即状态-动作值函数Q(s,a)。,但是在较为复杂的任务上,会使用卷积神经网络来拟合从图像来拟合从图像到价值函数的映射。DQN只能处理有限动作值,通常用于处理离散动作空间的任务。其中,s,a分别是状态s和动作a的向量表示;DQN算法的核心是维护Q函数并使用进行决策。的函数,如神经网络,输出一个实数,称为。下的动作价值函数,每次到达一个状态。之后,遍历整个动作空间,使用让。.
原创
2022-07-24 00:12:49 ·
3182 阅读 ·
0 评论