
《实验室》技术文章汇总
文章平均质量分 93
主要包含深度强化学习技术类文章
深度强化学习实验室
这个作者很懒,什么都没留下…
展开
-
第2期技术: Double Q-learning算法原理
Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在,而导致overestimation的主要原因来自于最大化值函数(max)逼近,该过程目标是为了最大的累计期望奖励,而在这个过程中产生了正向偏差。而本文章作者巧妙的是使用了两个估计器(double estimator)去计算Q-learning的值函数,作者将这种方法定义了一个名字叫“Double Q-learning”(本质上一个off-policy算法),并对其收敛过程进行了证明(缺点:原创 2020-09-07 23:31:04 · 1217 阅读 · 1 评论 -
第1期技术: DQN算法原理及实现过程
利用神经网络近似值函数的方法表示为:V^(s,w)≈Vπ(s)q^(s,a,w)≈qπ(s,a) \hat{V}(s, w) \approx V_{\pi}(s) \\ \hat{q}(s, a, w) \approx q_{\pi}(s, a) V^(s,w)≈Vπ(s)q^(s,a,w)≈qπ(s,a)那么具体的工作过程是怎样实现的? 以及如何从端到端的过程,本文将讲解Deep Q Network(DQN, 而这正是由DeepMind于2013年和2015年分别提出的两篇论文《Playi原创 2020-09-07 23:12:48 · 3050 阅读 · 0 评论