自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 论文笔记--Unsupervised (Meta) RL

无监督的(元)强化学习总结DIAYNKey IdeaFormulationDIAYN全名‘Diversity Is All You Need: Learning skills without a reward function’。关键词:learning skills without reward function; pretrained skills for downstream tasks...

2020-08-21 23:51:34 483 1

原创 Off-policy evaluation的一些知识点

最近做试验中遇到用off-policy数据估计策略性能提升的问题,估计的准确性直接影响到后面对这些数据的利用。然后就一不小心看到了一个RL的未接触过得领域----Off-Policy Evaluation(OPE)。发现有篇综述介绍的很详细,并且给出了benchmark,所以简单记录一下这个领域的一些概念和当前研究的进展及其分类,详细了解转[PAPER]。OPE的定义首先是off-policy evaluation问题的定义,直接来说就是利用behavior policy πb\pi_bπb​采样的数据

2020-07-30 10:05:54 1717 2

原创 policy gradient推导和问题

Policy Gradient的推导以及存在的问题Policy Gradient TheoryPolicy Gradient Theory策略梯度法广泛应用在model-free类型的强化学习算法中,其基本思想是通过梯度迭代方法对策略动作分布π(a∣s)\pi(a|s)π(a∣s)更新,使其达到最优策略π∗(a∣s)\pi^*(a|s)π∗(a∣s)。最优策略满足条件:Vπ∗(s)≥Vπ(s...

2020-04-06 23:43:44 255

原创 MaxEnt框架下的RL

MaxEnt的一些推导和理解策略概率分布最大熵的角度采样轨迹分布匹配的角度MaxEnt RL框架下Bellman等式的推导策略概率分布最大熵的角度从策略概率分布最大熵的角度理解,我们对最优策略的要求不仅仅是最大化长期奖励η(π)=Eτ[∑t=0∞γtr(st,at)]\eta(\pi)=\mathbb{E}_{\tau}\left[\sum_{t=0}^\infty\gamma^tr(s_t,...

2020-04-06 23:42:08 408

原创 论文笔记--Meta-Inverse RL with Probabilistic Context Variables

PEMIRL:Probabilistic Embeddings for Meta-Inverse RL核心思想方法IRL基本框架AIRLProbabilistic Context VariableMI regularization over Latent Variable总结核心思想其实这篇论文就就会meta learning with latent variable和IRL框架的结合。IRL...

2020-02-21 18:23:41 520

原创 论文笔记--InfoGAIL

InfoGAIL:Interpretable Imitation Learning from Visual DemonstrationMotivationMethodFormulationGAIL:InfoGAIL总结Motivation模仿学习将强化学习(RL)转换成一个监督学习(SL)\mathbf{(SL)}(SL)问题。通常来说imitation learning学习一个策略来模仿专家...

2020-02-19 20:24:12 1368

原创 opt课程笔记

最优化课程笔记基本的约束和非约束集合优化一维搜索方法Golden section method(only uses fff)Fibonacci method(only uses fff)Bisection method(only uses f′f'f′)Newton's method(only uses fff and f′′f''f′′)Secant method(only uses f′f'f...

2020-01-06 22:49:37 310

原创 论文笔记--Meta Learning for Better RL

online meta-critic learning for off-policy actor-critic methods核心思想FormulationBi-level OptimizationMeta-critic Design总结核心思想一般的元学习是用来在任务分布上学习,通过以往的大量任务训练过程来总结出经验指导分布中未曾见过的新任务的学习。然而这篇论文关注的是一般的single-t...

2019-12-23 14:22:16 442

原创 论文笔记--Guided Meta-Policy Search

论文笔记-- Guided Meta-policy Search--nips19核心思想Guided Meta-Policy Search元学习阶段(二阶段)专家策略学习阶段(一阶段)一点思考核心思想传统的元强化学习方法在meta-training过程中需要大量的数据,因为很多是on-policy的。在许多问题中很难满足。本文的思想是在元学习阶段(learn a RL procedure;外循...

2019-12-13 21:32:39 694

原创 论文笔记--Meta learning with implicit gradient

Meta-learning with implicit gradients--nips19论文思想Few-shot case formulaImplicit MAML AlgorithmPractical Algorithm论文思想原始的MAML算法一个很大的挑战是外循环(元更新)需要通过对内循环(梯度自适应)过程进行求导,一般就要求存储和计算高阶导数。这篇论文的核心是利用隐微分方法,求解过程...

2019-12-12 19:15:55 1886 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除