Pytorch
文章平均质量分 79
到达起点
这个作者很懒,什么都没留下…
展开
-
深度确定性策略梯度(DDPG)
在上一篇,我们使用了多线程解决问题,今天我们该讨论深度确定性策略梯度(DDPG)Pytorch实现代码,参考Tensorflow代码import torchimport numpy as npimport gymfrom torch import nnfrom torch.nn import functional as Fimport time###################...原创 2019-12-19 18:09:34 · 1498 阅读 · 0 评论 -
A3C
今天我们开始讲下A3C。解决问题收敛速度慢是之前Actor-Critic算法的问题。对此提出三点改进:1.还记得之前的参数更新公式:θ=θ+α∇θlogπθ(St,A)δ\theta = \theta + \alpha \nabla_{\theta}log \pi_{\theta}(S_t,A)\deltaθ=θ+α∇θlogπθ(St,A)δA3C使用了另外的优势函数形式:A...原创 2019-12-18 15:00:05 · 1139 阅读 · 0 评论 -
Actor-Critic多种变体
在之前,我们学习了基于策略(Policy Based)的强化学习方法,我们使用的是蒙特卡罗策略梯度reinforce算法。问题:1.但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,2.不容易收敛改进在上篇文章中(基于策略的强化学习方法),我们做了如下的改进,也就是使用了神经网络进行了如下的近似。第一个就是策略的近似:πθ(s,a)=P(a∣s,θ)≈π(a∣s)\p...原创 2019-12-18 10:53:57 · 223 阅读 · 0 评论 -
策略梯度(Policy Gradient)
本章我们主要讲解Policy Based解决问题:之前的强化学习算法是Value Based的方法,主要就是根据Q值和V值,进行选择。但是它有以下几个缺点。第一点是对连续动作的处理能力不足。第二点是对受限状态下的问题处理能力不足。导致真实环境下本来不同的两个状态却再我们建模后拥有相同的特征描述。第三点是无法解决随机策略问题。Value Based强化学习方法对应的最优策略通常是确定性策略...原创 2019-12-17 17:58:01 · 360 阅读 · 0 评论 -
DQN变体:Dueling DQN
本篇文章主要讲解Dueling DQN的结构。解决问题对比之前的DQN,Dueling DQN主要对结构进行了优化。Dueling DQN考虑将QQQ网络分成两部分,第一部分是仅仅与状态S有关,与具体要采用的动作AAA无关,这部分我们叫做价值函数部分,记做V(S,w,α)V(S,w,α)V(S,w,α),第二部分同时与状态状态SSS和动作AAA有关,这部分叫做优势函数(Advantage Fu...原创 2019-12-17 12:13:04 · 877 阅读 · 0 评论 -
DQN变体:Prioritized Replay DQN
这篇文章主要讲解Prioritized Replay DQN主要解决问题之前的DQN算法系列有个问题,每一次从经验回放集合里面抽取数据,每一个数据都是有相同的概率被抽取。这是有问题的,这也是导致收敛速度变慢的原因之一,我们应该着重关注TD误差绝对值比较大的数据,而不是那些效果已经比较好的数据。算法基础讲解还记得之前的损失函数是:1m∑j=1m(yj−Q(ϕ(Sj),Aj,w))2\fra...原创 2019-12-17 10:06:35 · 1206 阅读 · 5 评论 -
Pytorch之Variable,Tensor
最近发现使用pytorch的人越来越多,特别是github上,所以学了以下,发现非常的简便。其中也遇到了一些问题,所以就对我自己感兴趣的问题和知识做一个记录。本篇主要讲解Pytorch中Tensor和Variable的用法。Tensor的用法torch中的tensor跟numpy的array很像,但是tensor可以在GPU中加速运算,同时两者具有良好的兼容性。import torchx...原创 2019-12-04 15:24:12 · 223 阅读 · 0 评论