Deep Reforcement Learning
文章平均质量分 77
RL经典算法介绍
huoxingwen
这个作者很懒,什么都没留下…
展开
-
gym atri新版
问题atri在新版的2.0 gym上atri-py已经分离到ale上,使用旧版api报错The environment `SpaceInvaders` has been moved out of Gym to the package `ale-py`. Please install the package via `pip install ale-py`. You can instantiate the new namespaced environment as `ALE/SpaceInvaders`.原创 2022-05-04 17:33:29 · 796 阅读 · 0 评论 -
SOP论文
Striving for Simplicity and Performance in Off-Policy DRL: Output Normalization and Non-Uniform Sampling1原理Streamlined Off Policy (SOP), 使用简单的方法实现了新的SOTA,性能超越SAC。并比SAC更加简单实现。简单的两个tricks是Policy的原始输出uku_kuk经过Normalization后再过Squashing tanh(uk)tanh(u_k)t翻译 2022-04-25 17:56:20 · 346 阅读 · 0 评论 -
SVGD(Stein variational gradient descent)代码实现
目录The Stein GradientBackgroundKernels本文翻译自https://sanyamkapoor.com/kb/the-stein-gradientThe Stein Gradient机器学习就是处理结果的不确定性,而贝叶斯推理为我们提供了一种有原则的推理方式。我们将观察到的数据与先验相结合,在感兴趣的变量上构建(可能复杂的)后验,并使用这些后验来回答后续问题。对称为后验概率分布的建模能力使我们能够量化任何下游任务的不确定性声明。p(Θ∣X)⏞posterior 翻译 2022-04-13 20:25:40 · 862 阅读 · 0 评论 -
RL论文数据图绘制
1 介绍在很多的RL论文中绘制的数据图都非常精美,使用plt绘制达不到这种效果。如SAC论文中的图。这种图是使用seaborn模块绘制的,在openai的spiningup里面也提供了相对应的绘制模块,但是使用还是比较麻烦(对于一个不用spiningup的人来说)。幸运的是,在github上发现了一个有趣的项目rl-plotter可以很方便地绘制这种效果图。2 用法直接使用pip装就行pip install rl_plotter常用用法在训练代码中添加logger就.翻译 2022-03-25 11:00:11 · 1625 阅读 · 19 评论