DPG
Flanoc
退役oier
展开
-
【强化学习】SPG DPG DDPG(DPG3)
数学公式警告 Policy Gradient KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲J(\pi_\theta)=&… ρπ(s′)=∫S∑t=1∞γt−1p1(s)p(s→s′,t,π)ds\rho^\pi(s') = \int_S \sum_{t=1}^ {\infty} \gamma^{t-1}p_1(s)p(s\to s',t,\pi)dsρπ(s′)=∫S∑t=1∞原创 2020-12-30 20:19:05 · 840 阅读 · 0 评论 -
【强化学习】DQN (DPG2)
DQN 基础算法 网络结构 DQN与普通的Q-leaning的区别之一在于使用一个DCNN来近似Q(s,a),在论文中的一代目DQN中使用的是三个卷积层+两个全连接层 经验重放 另外一个区别在于利用了经验回放训练强化学习的学习过程,即一个经验池保存了(s,a,R,s′,done)(s,a,R,s',done)(s,a,R,s′,done)这一种五元组,之后训练时也从经验池中取出值进行训练。 训练神经网络时,存在的假设是训练数据是独立同分布的,但是通过强化学习采集的数据之间存在着关联性,利用这些数据进行顺原创 2020-12-30 00:18:09 · 392 阅读 · 0 评论 -
【强化学习】部分基础知识(DPG 1)
Method Value-Based(actor) step1: 将神经网络作为actor step2: 衡量actor的好坏 step3: 选择最好的actor Policy-Based(Critic) Critic: 用来评估actor State value function(V): 在看到某一个状态state的时候预期能够得到的累积收益Estimation of V: Monte-Carlo(MC): critic会观察actor π\piπ 玩游戏的整个过程, 具有不确定性,较大的方差,但结果无原创 2020-12-28 23:22:57 · 912 阅读 · 0 评论