算法基础
文章平均质量分 92
南阁风起
风起于青萍之末,扶摇于南阁之巅
展开
-
元强化学习(1):Meta-learning in Reinforcement Learning
强化学习在展现其强大学习能力的同时也深受其自身特性的困扰:系统的脆弱性和对超参数的依赖性。这一点在现今的复杂深度强化学习系统中表现的尤为突出。因此,近年来,元强化学习渐渐回归视线,即将基础强化学习方法中手动设定的超参数设定为元参数,通过元学习方法学习和调整元参数,进一步指导底层的强化学习过程。打算最近介绍一个系列,今天先来说说这篇2003年的《Meta-learning in Reinforc...原创 2020-03-25 18:48:48 · 5605 阅读 · 0 评论 -
强化学习论文(6): Distributed Distributional Deterministic Policy Gradients (D4PG)
分布式-分布DDPG,发表在ICLR 2018论文链接:https://arxiv.org/pdf/1804.08617.pdf要点总结从两个方面对DDPG进行扩展:Distributed:对Actor,将单一Actor扩展至多个,并行收集experience,如算法Actor部分所示Distributional:对Critic,将Critic由一个函数扩展成一个分布在DDPG中:...原创 2019-08-06 19:02:14 · 2141 阅读 · 1 评论 -
强化学习论文(5): Learning Latent Dynamics for Planning from Pixels
Google Brain,Deepmind 提出的 PlaNet论文地址:https://danijar.com/publications/2019-planet.pdf源码地址:https://github.com/google-research/planet摘要背景介绍模型算法实验评价...原创 2019-07-24 15:45:55 · 2075 阅读 · 1 评论 -
B-样条曲线教程
详见https://blog.csdn.net/tuqu/article/details/4749586原创 2019-07-19 17:37:44 · 827 阅读 · 0 评论 -
超限插值划分网格
问题描述在计算流体力学等工程应用问题中,需要对流场等待计算区域实施网格划分,使用数值方法求得被模拟对象的数值近似解。其中,网格划分的质量(精度,光滑程度)将直接影响计算结果的质量,是复杂数值计算问题的基础。对于边界规则的简单区域,可直接对边界参数域进行划分,将对应划分点相连即可。在实际工程中,我们常常遇到的是一些三边或者四边的曲面单元,其边界非常复杂。因而将其映射到参数域进行网格划分时,参数...原创 2019-07-19 17:25:04 · 3297 阅读 · 0 评论 -
强化学习中的熵
熵的典型使用概览主要有一下几种方式:TRPO,PPO方法:都是Policy Gradient方法和神经网络结合下的变体。使用off-policy更新(重用以前的交互经历)时,所得到的梯度是对真实梯度的一阶近似,因此需要控制步长在合理范围,步长大了近似就不准确了。于是,在策略梯度后面增加了KL-散度(相对熵)正则项,目的是控制步长/学习率1991williams,soft Q,soft AC...原创 2019-03-26 12:47:31 · 4414 阅读 · 0 评论 -
强化学习论文(4): Deep Reinforcement Learning in Large Discrete Action Spaces
大规模离散动作空间内的深度强化学习摘要处理这样的任务需要:1. 在动作集合上的泛化能力; 2. 次线性查找复杂度。本文提出方法,利用先验知识将动作嵌入连续空间使其可以泛化;采用近似最近邻算法达到log(n)\log (n)log(n)查找复杂度。背景知识介绍强化学习方法可分为两类:value-based policy, action-based policy.value-based...原创 2019-03-05 15:48:36 · 4309 阅读 · 3 评论 -
强化学习论文(3): One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks
元学习(meta learning)框架下的分层模仿学习问题摘要引言meta-learning 方法模型实验结果原创 2019-02-23 22:40:10 · 935 阅读 · 0 评论 -
强化学习论文(2): Latent Space Policies for Hierarchical Reinforcement Learning
基于潜变量的层级强化学习,主要依赖的工作有:SAC和real NVP摘要本文的目标是设计一个层级强化学习算法,按照自底向上的方式逐层构建分层表示。不同与以往HRL强制底层agent使用高层信号,从而限制或削弱其能力,进而强制层次生成,本文提出的框架中的每一层都致力于直接完成任务。框架内的每一层都被添加了潜变量,可从先验分布中采样得到。最大熵强化学习将这些潜变量和每一层的策略结合起来,并且高层...原创 2019-02-23 16:05:54 · 1347 阅读 · 0 评论 -
强化学习论文(1): Soft Actor-Critic
加州伯克利大学发布的 off-policy model-free强化学习算法,soft actor-critic(SAC)论文地址为:Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor假定已经对经典强化学习建模和基本Actor-Critic方法有所了解...原创 2019-02-22 22:29:48 · 12641 阅读 · 0 评论 -
变分自编码器VAE(Variational Autoencoders)及示例代码
这里写一个中文版快速入门笔记,更细致的理论分析和推导见:Tutorial on Variational AutoencodersPs: 内容有点多,可能会花一点时间来写一个简单的VAE代码:...原创 2019-02-08 15:46:13 · 14863 阅读 · 2 评论 -
素数因子分解转化方法阅读笔记
论文Implementation of the boolean factoring algorithm阅读笔记AbstractBoolean Factoring Algorithm(Lomonaco): reduct IFP(integer factorization problem) to DNF-SAT. DNF-SAT is in P, the reduction take...原创 2018-04-25 19:47:03 · 949 阅读 · 0 评论