论文阅读
文章平均质量分 90
论文阅读笔记
SpadeA_Iverxin
学无止境
展开
-
论文阅读-Multi-gate Mixture-of-Experts(MMOE)
MMOETittle总结:针对的问题:多任务学习,目的是通过构建一个模型,能够用在不同目标或者任务上。但是这种模型的预测质量往往对于任务之间的关系很敏感。产生的新想法:提出了Multi-gate Mixture-of-Experts(MMoE), 多门控制的混合专家网络。在MoE(专家网络)的基础上,通过在任务间共享专家网络的子模型,来使MoE适应多任务学习。例如,在电影推荐系统中,通常需要同时优化多个目标,例如同时预测用户的购买率、用户的打分等。研究表明迁移学习可以通过原创 2021-09-27 08:51:11 · 690 阅读 · 0 评论 -
论文阅读 - Unsupervised feature selection via transformed auto-encoder(2019)
[TOC]题目概括一种特征选择器,用来移除不相关的特征,减少计算量,加速计算过程提升性能表现。结构模型分成三部分:通过深度自动编码器得到的受正交约束的indicator matrix指示矩阵。使用非负最小二乘法,获得近似的、非负的指示矩阵 (算法第8部)通过指示矩阵来选择出特征选择矩阵(feature selection matrix),并且使用K-means算法来评估模型。(算法性能评估部分)Related worksLS Laplacian score作为过滤方法。但是原创 2021-02-28 18:38:52 · 917 阅读 · 0 评论 -
论文阅读24 - VAE - Variational AutoEncoder (Auto-Encoding Variationl Bayes)
VAE一篇讲的很好的博客理论推导博客论文原文斯坦福课件上面的博客已经很好很深入了,下面记录一下我个人的直观理解。具体理论移步上面的博客。这里只是作为日后使用时的快速查阅。不具有理论推导的严谨性。1. 直观理解:第一次接触VAE还是在World Model这篇论文。VAE主要由三部分组成:Encoder 编码器,用来中间向量z分布,即p(z∣x)p(z|x)p(z∣x)z向量 Encoder的输出,Decoder的输入。可以当做降维之后的输入。p(z)p(z)p(z)Decoder原创 2020-11-16 14:25:44 · 994 阅读 · 0 评论 -
论文阅读23 - Mixture Density Networks(MDN)混合密度网络理论分析
Mixture Density Networks最近看论文经常会看到在模型中引入不确定性(Uncertainty)。尤其是MDN(Mixture Density Networks)在World Model这篇文章多次提到。之前只是了解了个大概。翻了翻原版论文和一些相关资料进行了整理。1. 直观理解:混合密度网络通常作为神经网络的最后处理部分。将某种分布(通常是高斯分布)按照一定的权重进行叠加,从而拟合最终的分布。如果选择高斯分布的MDN,那么它和GMM(高斯混合模型 Gaussian Mixtu原创 2020-11-14 16:02:49 · 7269 阅读 · 0 评论 -
RL论文阅读22 - MB - World_Model
RL论文阅读-World_Model写博客一年多了,当初拍脑袋想写个博客记录一下自己的学习历程,也算不辜负青春年华。写了一堆字多的字少的水的不水的读得懂的读不懂的,这个刚好第100篇。继续坚持。1. TittleOnline 版本2. 标签model based3. 解析 world model这篇论文属于基于模型的强化学习(MB-RL)一种。与一些其他的MB算法不同的是,world model 算法在建模时直接使用图片帧来进行过建模。该算法在模型训练好后,可以脱离实际环境,让原创 2020-11-12 21:19:40 · 657 阅读 · 0 评论 -
RL论文阅读21-MB-PILCO2011
1. Tittle 20112. 标签model basedplanningdata efficientcontinuous / discrete3. 总结MB类算法,一个关键问题在于减少模型的偏差。一个模型偏差过大,那么使用这个模型进行planning必然不准确。PILCO减少误差的方式是学习一个基于概率的动力学模型,并且在进行long-term planning 时,引入了模型的不确定性(model uncertainty)PILCO可以使用很少的数据并且在少数尝试之后完成原创 2020-11-04 09:14:44 · 338 阅读 · 1 评论 -
RL论文阅读20 - MF类算法总结(VPG, TROP, PPO, DDPG, TD3, SAC)
PG类算法总结1. On-Policy类算法1.1 VPG:Vanilla Policy Gradienton policy 算法可用于动作空连续或者离散动作空间这个就是最初的PG版本。我们的目的是最大化有限的return。J代表的是无折扣的有限return。下面的公式推导见从PG到A3C![\nabla_{\theta} J(\pi_{\theta}) = \underE{\tau \sim \pi_{\theta}}{ \sum_{t=0}^{T} \nabla_{\theta原创 2020-10-19 17:23:14 · 2057 阅读 · 0 评论 -
RL论文阅读18 - MF- SAC2018(Soft Actor-Critic)
1. Tittle![image-20201015093910870](18-SAC2018(Soft Actor-Critic).assets/image-20201015093910870.png)2. LabelModel-Freeoff-policyContinuous action space微小改动policy更新规则,可以用discrete action space3. 总结SAC算法相对于DDPG来说减少了一些超参数,使得算法更容易收敛,也更加稳定。例如DDPG在训练月球原创 2020-10-19 17:14:19 · 544 阅读 · 0 评论 -
RL论文阅读19 - AlphaGo Zero原理浅显分析
最近偶然看到一个写轻量版(5*5)围棋的问题,当时第一时间就想到了当年(2015年吧)让世界震惊的AlphaGo。好奇心驱使,查了一下相关理论。发现AlphaGo已经被它的新一代版本AlphaGo Zero(2017)给打败了。怀着对科研前辈瞻仰的心情,浅显的研究了一下AlphaGo Zero的原理。原来,AlphaGo Zero才是真正的棋神文章目录Tittle分析:MCTS是什么东西?AlphaGo Zero后记ReferenceTittle分析:AlphaGo Zero主要是有两部分组成.原创 2020-10-16 21:30:21 · 479 阅读 · 0 评论 -
RL论文阅读12-mf-HER2017(更新)
[TOC]1. Tittlesource20172. 标签model-free3. 总结针对的问题:reward function的设计是很复杂的,不仅需要反映任务的本质 而且还有精心设计才能够使策略最优化。稀疏奖励或者二进制奖励很难训练。提高reward是稀疏的或者是1/0的这种形式时的sample-efficiency,从而避免复杂的reward设计。解决方法:提出了一个新的技术叫做Hindsight Experience Replay。 能够针对所有的off-原创 2020-10-16 09:56:04 · 569 阅读 · 2 评论 -
RL论文阅读14-MB-PETS2018
1. Tittle2. 标签Model Based3. 总结3.1 针对的问题MB算法虽然能够获得很棒的sample efficienty,但是通常落后于最好的model-free。在大规模参数的函数估计器中更为明显,如神经网络。本论文就是研究如何跨越这个差距。提出了Probabilistic ensembles with trajectory sampling(PETS)。算法结合了 不确定性感知深度网络动力学模型和基于采样的不确定性传播。(uncertainty-aware deep原创 2020-09-28 22:24:34 · 543 阅读 · 0 评论 -
Model-Based RL-基于模型的强化学习-理论详解1:最优控制和规划问题(Optimal Control and Planning)/ CEM/MCTS/LQR
[TOC]1. MB概念引出1.1 概念强化学习的目标就是希望agent做出的动作序列得到最多的累计奖励,假设我们知道两个状态之间的转换概率$p(s_{t+1}|s_t,a_t)$,那么我们的算法可以表示为:上图中第一个式子是状态动作序列$\tau$的概率。优化agent训练的依据就是最大化序列奖励的数学期望。Model-Based reinforcement learning就是学习动力学转换概率,然后算出如何去选择动作。1.2 MB三个阶段知道了动力学模型,如何做出好的决策,最优控制和原创 2020-07-09 10:55:12 · 3360 阅读 · 0 评论 -
RL论文阅读13-mf-ACER2017
1. Tittlesource2. 标签model-freePGContinue/Discrete3. 总结对AC算法的提升,引入了一些创新,包括使用偏差修正的截断重要性采样,随机竞争网络架构和新的TRPO方法(trust region policy optimization)4. 原理4.1 背景和问题引出:agent的目标是最大化return的数学期望。加入Advantage Function后,对于策略的更新为:策略$\pi$的梯度:Advantage Funcion原创 2020-06-08 11:08:12 · 298 阅读 · 0 评论 -
RL论文阅读12-mf-HER2017
[TOC]1. Tittlesource20172. 标签model-free3. 总结针对的问题:reward function的设计是很复杂的,不仅需要反映任务的本质 而且还有精心设计才能够使策略最优化。稀疏奖励或者二进制奖励很难训练。提高reward是稀疏的或者是1/0的这种形式时的sample-efficiency,从而避免复杂的reward设计。解决方法:提出了一个新的技术叫做Hindsight Experience Replay。 能够针对所有的off-原创 2020-06-03 16:39:53 · 295 阅读 · 0 评论 -
RL论文阅读11-me-SNAIL2018
1. Tittlesource2. 标签Meta-learning3. 总结针对问题最近的meta-learning方法,一般都是手动设计的,使用某种架构去解决特定的问题 或者 使用硬编码的算法组件。这种手动设计限制了meta-learner解决任务的方式。因为人共设计的架构可能不是针对该任务的最好的方式。Meta-Learning能够被定义为sequence-to-sequence的问题,现有方法都采用这个观点,但是这个瓶颈问题是meta-learner利用并理解以往经验。解决思原创 2020-05-30 00:40:55 · 316 阅读 · 0 评论 -
RL论文阅读10-me-RL2.2016
Tittlesource标签Meta-Learning总结针对的问题Data efficiencyFast Learn解决方法把agent的学习过程视为一个可以使用标准的RL算法优化的objective,agent使用一个RNN网络来表示,接收past rewards, actions, terminations flags, observations. 它保留着某个MDP过程的所有episodes的信息。当训练好这个网络之后,利用RNN的记忆性,当在面对未见过的MDP时,RNN原创 2020-05-24 09:42:37 · 277 阅读 · 0 评论 -
RL论文阅读9-mb-MBMF2017
1. Tittlesource2. 标签Model-Based3. 总结3.1 针对问题model free算法的data efficiency 低3.2 解决办法使用深度神经网络表示的环境动力学模型来初始化model-free的学习器。从而加速学习过程。提出的方法能够在高维度的任务中有较好的表现。4. 原理4.1 神经网络动力学模型标记$\hat f_\theta(s_t,a_t)$输入$s_t,a_t$,状态和动作输出:下一个预测状态与输入状态之间的改变量。因原创 2020-05-19 18:24:59 · 608 阅读 · 0 评论 -
RL论文阅读8-mb-ME-TRPO2018
[TOC]1. Tittlesource2. 标签Model-BasedContinue Actions3. 总结如题目所示,就是把model-ensemble的思想应用到了TROP算法上。针对的问题数据利用率使用深度神经网络的vanilla model-based RL模型方法,学习到的策略倾向于利用由于数据不充足而模型无法学习的区域,这导致了模型的不稳定。具体在本文原理4-1中描述。解决的思路使用一组模型来维护模型的不确定性并规范学习的过程。4. 原理Vanilla原创 2020-05-18 22:27:48 · 473 阅读 · 0 评论 -
RL论文阅读7 - MAML2017
Tittlesource标签meta-learningframework总结meta-learning的目标就是训练一个模型,使这个模型能够从很少的新任务的数据中快速学习一个新的任务。这个模型的训练需要大量的不同任务作为数据。提出了一种meta-learning的框架,能够用于使用梯度下降的算法,使其在应用于新的任务时,只需要很少步骤的训练就能够达到较好的效果。这个框架能够用于分类任务(如图像)和使用梯度下降来训练策略的强化学习的任务。其实简单来说,就是训练了适应一些列某类的任务的模原创 2020-05-16 18:12:56 · 438 阅读 · 0 评论 -
RL论文阅读6 - MB-MPO2018
文章目录Tittle标签总结针对问题:解决思路原理1. 前序工作简介:Meta-Learning for RL**2. MPO原理**(1)模型学习:(2)Meta-RL 应用在学习的模型上3. 算法Tittlesource标签Meta-learningModel-based总结针对问题:data inefficientMB算法过于依赖模型的准确率,如果模型不够准确,就会产生Model-Bais。 之前解决Model-bias的一些工作在参考文献678910。通常使用ensembl原创 2020-05-15 16:25:03 · 461 阅读 · 0 评论 -
RL论文阅读5 - RWMFPE 2018
Tittlesource标签Model Based总结提出了一个新的Model-Based学习的框架。如图:这个模型一共分成三个部分:V:用来将输入的图片编码成z。学习图像的抽象表示。M:用来预测未来的z。M生成的是z的概率密度而不是直接生成z向量。C:根据M产出的h和V产出的z,生成一个动作a。C一般是一个简单线性的。在训练时:先训练V,然后用V的产出训练M,最后整合训练C原理这个论文的试验环境是两个游戏:Car Racing 和 VizDoom环境的信息直接从每一帧的图像原创 2020-05-13 19:45:02 · 267 阅读 · 0 评论 -
RL论文阅读4 - 从MVE.2018到STEVE.2019
文章目录Sample-Efficient RL with Stochastic Ensemble Value Expansion1. Tittle2. 标签3. 总结3.1. 针对的问题3.2. 解决方法4. 原理推导4.1. AC类算法优化(DDPG为例)4.2. MVE算法缺点:4.3. STEVESample-Efficient RL with Stochastic Ensemble Value Expansion1. Tittlesource2. 标签Model-BasedConti原创 2020-05-11 19:35:03 · 583 阅读 · 0 评论 -
RL论文阅读3-PPO.2017
PPO.2017Tittlesource标签Model-freePolicy-basedOn-policyContinuous State SpaceContinuous Action SpaceSupport High-dim Input总结针对的问题TRPO算法虽然取得较好成果,但是相对复杂,不兼容一些包含噪声或者参数共享的架构。其实和TRPO解决的问题一样,是...原创 2020-05-08 16:13:00 · 520 阅读 · 0 评论 -
RL论文阅读2-I2A.2018
I2A.2018文章目录I2A.2018Tittle标签总结针对的问题解决方法原理框架Tittlesource标签Model-basedPolicy-basedOn-policyContinuous State SpaceContinuous Action SpaceSupport High-dim Input总结新的架构,结合了model-free和model-ba...原创 2020-05-07 14:29:05 · 433 阅读 · 0 评论 -
RL论文阅读1- 从PG到AC、A3C和A2C的理论推导+tensorflow2.0代码实现
文章目录A3C.2016 and A2CTittle标签总结针对的问题解决方法优点原理PG(Policy Gradient):AC:A2C和A3C的原理支撑:Actor:Actor在Continues Action 连续动作空间处理CriticA3C的架构:A2C架构代码实现:referenceA3C.2016 and A2CTittlesource标签Model-freePoli...原创 2020-05-05 00:11:41 · 3067 阅读 · 6 评论 -
强化学习笔记(7)基于模型的RL / Dyna算法/ MCTS
文章目录Introductionmodel-FreeModel-Based RLAdvantagesDisadvantagesModel定义目标一些模型表示方法:计划 PlanningSample-Based Planning 基于采样的计划整合Model-Free 和 Model-Based两种经验来源:Dyna基于模拟的搜索前向搜索算法 Foward Search基于模拟的搜索算法MCTS简化...原创 2020-04-17 18:26:09 · 1469 阅读 · 0 评论 -
强化学习笔记(6)Policy Gradient 策略梯度下降 DPG/MCPG/AC
[TOC]#概念之前都是基于价值函数或者状态行为价值对的。在大规模问题时由于我们不可能存储每一个状态行为价值,所以我们使用Function来估计该状态的价值。我们通过训练从而精确function里面的参数。这都是基于状态价值的。如果对于行为action很多,或者行为是连续的。那么我们能否确定一个函数P\mathbb PP,我们把状态s等参数输入进去,就能等得到一个行为aπθ(s,a)=...原创 2020-04-12 17:48:53 · 2274 阅读 · 0 评论 -
强化学习笔记(5)价值估计函数Value Function Approximation
文章目录Introduction如何选择Function Approximator?Incremental MethodsGradient Descent特征向量的形式Linear Value Function Approximation线性价值估计函数正确结果Batch MethodsLeast Squares PredictionExperience ReplayDQN (Deep Q-Net...原创 2020-04-12 17:33:38 · 2602 阅读 · 0 评论 -
强化学习笔记(4)无模型控制Model-Free Control(On-policy learning, off-policy learning, GLIE, Sarsa, Q-learning)
文章目录Introduction概念On-Policy learningOff-Policy learningMonte-Carlo Control问题1:使用行为价值函数代替状态价值函数贪婪策略基于行为价值函数的更新:问题2:使用贪婪算法的局限性例解决方案:ϵ−greedy\epsilon-greedyϵ−greedyGLIE定理:GLIE Monte-Carlo Control定理TD Con...原创 2020-02-18 13:44:25 · 1283 阅读 · 0 评论 -
强化学习笔记(3) Monte-Carlo和TD
3_Monte-Carlo_RL文章目录1.1. 前言1.1.1. 算法特性1.1.2. 目标1.2. 两种Monte-Carlo 估计价值函数1.2.1. First Visit1.2.2. Every Visit1.2.3. 小tips: Incremental Mean1.3. Monte Carlo Control (Approximate optimal policies)1.3.1...原创 2020-02-18 13:34:59 · 747 阅读 · 0 评论 -
强化学习(2) 动态规划(Dymatic Progressing)
1. 1 同步价值迭代动态规划来解决强化学习的规划问题。在已经了解了状态、行为空间、转移概率矩阵、奖励等信息的基础上,判断一个策略的价值函数。或者判断策略的优劣寻找最优的策略。一般强化学习是不知道上述的一些动力学环境,而且复杂的问题无法通过动态规划解决。动态规划思想是把复杂问题变成求解子问题,最终再得到整个问题。子问题的结果一般需要保存以备后用。如果某个子问题重复出现,就可以重复使用结果。...原创 2020-02-08 11:44:41 · 804 阅读 · 0 评论 -
RL(Reinforcement Learning)强化学习(1)马尔科夫过程(MP)、马尔科夫奖励过程(MRP)、马尔科夫决策过程(MDP)
MP/MRP/MDP文章目录MP/MRP/MDPMarkov process马尔科夫过程一些概念:马尔科夫奖励过程(Markov reward process, MRP)概念贝尔曼方程产生的推导马尔科夫决策过程行为价值和状态价值之间的关系例:状态价值函数求解最优策略最优策略的贝尔曼方程求解:总结:ReferenceMarkov process马尔科夫过程一些概念:马尔科夫性:在t+1时刻的...原创 2019-12-25 22:00:50 · 991 阅读 · 0 评论