自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Ray

  • 博客(12)
  • 收藏
  • 关注

原创 anaconda 易忘的命令行 --- ray

环境导出、导入查找所有环境的名字conda env list或者conda info -e激活你要导出的环境,your_env为要导出的环境名称conda activate your_env将该环境导出为 your_env.yml 文件conda env export --file your_env.yml如果想在别的电脑上安装这个环境,输入conda env create -f your_env.yml环境创建、删除创建名为 your_env 的环境,python版本为3

2021-05-30 11:18:36 290

原创 Git 常用命令

关于远程从GitHub上克隆代码:git clone https://github.com/xxxx.gitgit clone https://github.com/xxxx.git <新项目名>查看远程主机信息,添加远程主机,删除远程主机,重命名远程主机:git remote -vgit remote add <主机名> <网址>git remote rm <主机名>git remote rename <原主机名> <新主

2020-10-14 20:41:51 99

原创 Visual Reinforcement Learning with Imagined Goals

文章来自 University of California, Berkeley,提出了一种将 goal-conditioned RL 与 无监督表示学习相结合的算法 --- RIG (Reinforcement learning with Imagined Goals),该算法具有较高的样本效率,能够在真实世界中训练。

2020-06-18 23:19:20 567 1

原创 REFUEL: Exploring Sparse Features in Deep Reinforcement Learning for Fast Disease Diagnosis

文章来自 HTC Research & Healthcare,提出了一个新算法 ---- REFUEL (REward shaping and FeatUrE rebuiLding),该算法能够有效提升在线疾病诊断的速度和精度。

2020-06-14 14:31:05 285

原创 Hierarchical Reinforcement Learning for Zero-shot Generalization with Subtask Dependencies

文章来自University of Michigan,提出了一种能够进行复杂逻辑推理,且能泛化到新环境的 HRL 方法 --- NSGS (neural subtask graph solver)。

2020-06-10 21:18:06 543

原创 Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

文章来自 The Technion - Israel Institute of Technology(以色利理工学院),提出了一种适用于大型离散动作空间任务的方法 --- AE-DQN (Action-Elimination Deep Q-Network)。

2020-06-06 23:16:18 305 1

原创 Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion

文章来自Google Brain,提出了一种使用 model-based RL 算法来提升 model-free RL 算法性能的技巧,名为 STEVE (stochastic ensemble value expansion)。对于 model-free 方法来说,由于 model-based 的方法的引入,所以变得 “Sample-Efficient” 。

2020-06-03 15:19:47 477

原创 Data-Efficient Hierarchical Reinforcement Learning

文章来自Google Brain,提出了一种将 off-policy 算法应用在 HRL 框架上的方法 --- HIRO (HIerarchical Reinforcement learning with Off-policy correction)。由于 off-policy 的引入,使得数据可以重复利用,所以叫 "data-efficient"。

2020-05-31 00:08:49 1588 5

原创 Improving Exploration in Evolution Strategies for DRL via a Population of Novelty-Seeking Agents

文章来自Uber AI Labs,主要通过在Evolution Strategies(ES)算法中引入 Novelty Search(NS)算法 和 Quality Diversity(QD)算法来解决RL任务中的探索问题。提出了三个算法 NS-ES, NSR-ES, NSRA-ES。

2020-05-24 12:06:58 296

原创 Fast deep reinforcement learning using online adjustments from the past

文章来自 DeepMind,其提出了一种能够更加充分利用 Replay buffer 历史经验数据的RL改进算法 ---- Ephemeral Value Adjusments (EVA)。

2020-05-14 22:46:27 295

原创 Evolution-Guided Policy Gradients in Reinforcement Learning

文章来自Oregon State University,提出了一种结合 Evolution Algorithm(EA)的RL的算法 --- Evolutionary Reinforcement Learning (ERL),该算法继承了前两者的优点。

2020-05-14 08:49:09 969

原创 Diversity-Driven Exploration Strategy for Deep Reinforcement Learning

文章来自清华大学,主要解决的问题是 RL 的探索问题,文中的方法对拥有large state space, sparse reward, deceptive reward的任务很有效。

2020-05-13 08:35:46 447

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除