困比比-CSDN博客

原创强化学习文献笔记：Index

督促，温故知新，归纳总结。...

2019-04-25 15:58:42 1721

原创 Qt+MySQL编程

项目需要开发一个数据库软件，并且整个软件都是使用Qt搭建的，数据库选用的是MySQL，因此需要使用Qt调用MySQL，在此记录一下相关方法与问题，以方便自己与他人。本项目使用的是QtCreator(Qt5.5.0)+VisualStudio2013+MySQL5.7.17.0搭建。其他版本只要版本是正确对应的，都大同小异。准备工作假设你已经正确安装了Qt和MySQL，并且已经将文件../M...

2020-08-13 23:09:13 21986 11

原创 EXPLORATION BY RANDOM NETWORK DISTILLATION (RND)

文章目录1. Introduction2. Method1. Introduction现有算法在dense reward下能够得到很好的效果，但当reward稀疏时往往性能不佳。在这些情况下，必须有针对性地探索环境。RL的最新发展似乎表明，解决最具挑战性的任务需要处理从并行运行的多个环境副本中获得的大量样本。鉴于此，期望具有大量经验的，能够很好地扩展的探索方法。然而，基于计数，伪计数，信息增益或预测增益的许多最近引入的探索方法难以扩展到大量并行环境。本文介绍了一种探索奖励，易于实现，适用于高维.

2020-06-25 20:16:26 1999 1

原创 RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED REINFORCEMENT LEARNING (R2D2)

文章目录1. Introduction2. BACKGROUND2.1. REINFORCEMENT LEARNING2.3. THE RECURRENT REPLAY DISTRIBUTED DQN AGENT3. TRAINING RECURRENT RL AGENTS WITH EXPERIENCE REPLAYReferences:1. IntroductionRL最早的成功是利用replay buffer来提高数据效率并堆叠固定数量的连续帧来克服Atari 2600游戏中的部分可观性。但是，.

2020-06-23 15:13:28 2741

原创 Observe and Look Further: Achieving Consistent Performance on Atari

文章目录1. Introduction3. Algorithm3.1. DQN Background3.2. Transformed Bellman Operator3.3. Temporal consistency (TC) loss3.4. Ape-X DQfDReplay buffersActor processesLearner process1. Introduction作者认为，一种算法需要克服三个关键挑战，才能在所有Atari游戏中表现出色。第一个挑战是处理各种奖励分配：无论奖励密.

2020-06-20 19:26:59 652

原创 Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)

MCTS based方法（即AlphaGo系列）在很多棋类领域取得了巨大成功，但在这些任务中，模拟器都是完美的、可获得的。但是，在实际问题中，环境动力学通常是复杂且未知的。这项工作提出了MuZero算法，该算法通过将基于树的搜索与学习的模型相结合，可以在一系列具有挑战性和视觉复杂的领域中实现超人的性能，而无需了解其基本动态。 MuZero学习了一个模型，该模型在进行迭代应用时可以预测与规划最直接相关的量：reward，policy和value function。MuZero在57种不同的Atari游戏上达到

2020-06-15 12:52:37 2628

原创 Mastering the game of Go without human knowledge (AlphaGo Zero)

AlphaGo的树搜索结合了深度神经网络，这些网络是由专家知识进行监督式学习以及从selfplay中进行强化学习。AlphaGo Zero仅基于强化学习，一个神经网络被训练来预测行为的选择和价值。该神经网络提高了树搜索的性能，从而在下一次迭代中提供了更高质量的移动选择和更强的自我玩法，同时更精确的树搜索又能改善网络性能。文章目录IntroductionReinforcement learning in AlphaGo ZeroEmpirical analysis of AlphaGo Zero trai

2020-06-13 19:54:43 915

原创 Mastering the game of Go with deep neural networks and tree search (AlphaGo)

围棋游戏因其巨大的搜索空间以及评估棋盘位置和动作的难度，一直被视为人工智能经典游戏中最具挑战性的游戏。本文使用value network评估棋盘位置，并使用policy network选择行为。这些深度神经网络是通过人类专家游戏中的有监督学习和self-play中的强化学习的新颖组合来训练的。同时，本文还提出一种新的MCTS搜索算法，该算法将蒙特卡洛模拟与价值和策略网络相结合。文章目录IntroductionSupervised learning of policy networksReinforcem

2020-06-13 14:45:29 1169

原创 Value Prediction Network

本文解决的是离散行为空间的问题。与AlphaZero类似，VPN使用构建了神经网络来学习状态价值函数，在选择行为时也采取了类似MCTS的规划方法，以求得当前S下的最大Q值。最大的不同之处在于VPN基于option-conditional（对比与一般的action-conditional）学习了抽象动力学模型，动力学模型能够辅助planning和价值函数的训练，同时更准确的planning又能加速网络收敛。文章目录1. Introduction3. Value Prediction Network3.1

2020-06-12 10:12:26 1260 2

原创 RL环境配置：ERROR: GLEW initalization error: Missing GL version

配置环境：ubuntu18.04，python3.6，mujoco200配置完mujoco + mujoco-py + gym后尝试运行以下测试代码：（在安装gym的过程中发现gym强制安装mujoco150，但mujoco-py是和mojoco200匹配的，于是修改了gym根目录下的setup.py文件中的mujoco版本号）import gym#导入环境env = gym.make('Ant-v2')#初始化环境env.reset()#循环1000次for _ in range(100

2020-06-02 01:01:37 5873

原创强化学习算法：AC系列详解

文章目录ACA2CA3CACA2CA3C

2020-03-21 17:02:14 31539 2

原创强化学习算法：DQN系列详解

文章目录SarsaQ-LearningDQNDouble DQNDueling DQNReferences：SarsaSarsa 的名称来源于下图所示的序列描述：给定一个状态SSS，个体通过行为策略产生一个行为AAA，即产生一个状态行为对(S,A)(S,A)(S,A)，环境收到个体的行为后会返回即时奖励RRR以及后续状态S’S’S’；个体在状态S’S’S’ 时遵循当前的行为策略产生一个新行为A...

2020-03-19 20:20:04 3952

原创速记：python多线程之threading.Condition

import threadingimport timeimport logginglogging.basicConfig(level=logging.DEBUG, format='(%(threadName)-9s) %(asctime)s %(message)s', )def consumer(cv): logging.debug('...

2020-01-15 23:39:05 435

原创 Windows下Python3调用C++函数

文章目录配置VS环境`.cpp`示例代码有输入输出参数无输入输出参数生成`.pyd`文件注意事项本博客运行环境为Windows 10 + VS2015 + python3.6；主要流程为将.cpp文件封装成.dll文件，改名为.pyd后可以直接在python下import；更多详细信息可以参考python的doc：Extending Python with C or C++。配置VS...

2020-01-08 23:28:46 4514 3

原创 When to Trust Your Model: Model-Based Policy Optimization

文献目录文章目录1. INTRODUCTION3. Background4. Monotonic Improvement with Model Bias4.1 Monotonic Model-based Improvement4.2 Interpolating Model-Based and Model-Free Updates4.3 Model Generalization in Pract...

2019-11-01 18:18:06 3061 3

原创 Model-Based Reinforcement Learning via Meta-Policy Optimization

文献目录文章目录1. INTRODUCTION1. INTRODUCTION

2019-10-14 16:27:28 1742

原创 Uncertainty-driven Imagination for Continuous Deep Reinforcement Learning

文献目录文章目录1. Introduction3. Background1. Introduction存在问题：当深度强化学习应用于机器人时，环境与agent之间的交互和重置是昂贵的、繁琐的，甚至会导致物理损坏。尽管可以通过大规模并行化来缓解这一问题，但是提高用于深度强化学习的数据效率是值得的，并且有利于并行和顺序设置来实现日益复杂的任务。在与系统交互最少的情况下，实现更好的数据...

2019-09-30 11:10:08 888

原创 Sample-Efficient Reinforcement Learning with Stochastic Ensemble Value Expansion

文献目录文章目录1. INTRODUCTION1. INTRODUCTION

2019-09-23 15:31:25 1542

原创 MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION

文献目录文章目录1. INTRODUCTION1. INTRODUCTIONModel-based方法需要学习模型的非常严格的形式，并且需要仔细的调优才能使它们适用。尽管将基于模型的算法扩展到深度神经网络模型是一个简单的想法，但迄今为止，成功的应用相对较少。基于模型的强化学习的标准方法在模型学习和政策优化之间交替。在模型学习阶段，从与环境的相互作用中收集样本，并使用监督学习将动态模型拟...

2019-09-19 16:49:19 1468

原创 Model-Based Value Expansion for Efficient Model-Free Reinforcement Learning

文献目录文章目录1. INTRODUCTION2. Model-Based Value Expansion1. INTRODUCTION丰富的值函数近似器能够很好地完成复杂的任务，但需要与真实世界进行不切实际的大量交互；在相当受限的环境下，基于模型（MB）的方法可以使用习得的模型快速达到近似最优的控制；复杂的环境需要高容量的模型（如更深的神经网络），而当数据量较少的时候，高容量模型容...

2019-09-17 15:35:43 1917

原创 CS294(6) 演员-评论家算法（总结版）

文章目录策略梯度法与值函数的结合Backgroundbaseline演员-评论家算法policy evaluationMonte Carlo evaluation with function approximationAn actor-critic algorithm贴现因子（discount factors）实现细节网络结构设计Online actor-critic in practiceCri...

2019-09-15 22:02:25 3424

原创 CS294(5) 策略梯度法（总结版）

文章目录策略梯度法REINFORCEPartial observability问题一：高方差问题背景方差削减方法一：因果关系(causality)方法二：baseline问题二：on-policy问题问题三用自动差分器做策略梯度法策略梯度法在实践中的注意事项我们已经知道智能体通过增强学习与环境打交道的运作机理：状态sss下根据由参数θ\thetaθ的神经网络所表示的测量πθ(a∣s)\pi...

2019-09-15 16:07:00 1230

原创 CS294(8) 深度增强学习中的Q学习方法（总结版）

BackgroundQ学习方法抛开了一个显式的策略，直接去学习Q函数，使我们知道在某个特定的状态下执行某一操作效果有多好。但是如果我们使用神经网络来进行拟合可能出现的不收敛现象，这一问题将在所有的使用某些结构（如神经网络）拟合值函数，然后使用拟合的值函数作为“评论家”来做自助的方法中都存在。Replay Buffer & Target Network以on-line Q迭代算法为例，...

2019-09-14 20:01:29 2263

原创 CS294(7) 基于值函数的方法（总结版）

PG算法与AC算法本质上都是寻找策略梯度，只是AC算法同时使用了某种值函数来试图给出策略梯度的更好估计。但是策略梯度算法通常有非常高的方差，因此希望能够抛开策略梯度这一架构。优势函数Aπ(st,at)=Qπ(st,at)−Vπ(st)A^{\pi}(s_t,a_t)=Q^{\pi}(s_t,a_t)-V^{\pi}(s_t)Aπ(st,at)=Qπ(st,at)−Vπ(st)，指的是给...

2019-09-14 13:08:28 1641

原创 David Silver强化学习课程 Lecture 7: Policy Gradient（总结版）

1. 基于策略学习的优点：总是沿着梯度方向在改善策略，具有更好的收敛性；基于值的方法难以解决行为空间连续的问题，基于策略的方法则很容易；可以学习到随机策略；可以解决观测受限的问题；有时候计算价值函数十分复杂，基于策略则很简单。基于策略学习的缺点：原始的基于梯度的方法方差较高，效率低下。2.策略目标函数：2.1、star value：在能够产生完整Episode...

2019-09-11 17:03:16 717

原创 David Silver强化学习课程 Lecture 5: Model-Free Control（总结版）

2、离线策略学习 Off-Policy Learning现时策略学习的特点就是当前遵循的策略就是个体学习改善的策略。离线策略学习（Off-Policy Learning）则指的是个体通过策略μ(a|s)生成行为与环境进行实际交互，但是在更新这个状态行为对的价值时使用的是目标策略π(a|s)。π(a|s)多数是已经具备一定能力的策略例如人类已有的经验。为什么要这么做呢？因为这样可以较容易的...

2019-09-11 16:56:46 370

原创 David Silver强化学习课程 Lecture 3: Planning by Dynamic Programming（总结版）

动态规划算法把求解复杂问题分解为求解子问题，通过求解子问题进而得到整个问题的解。当问题具有下列两个性质时可以考虑使用动态规划求解：一个复杂问题的最优解由数个小问题的最优解构成，可以通过寻找子问题的最优解来得到复杂问题的最优解；子问题在复杂问题内重复出现，使得子问题的解可以被存储起来重复利用。马尔科夫过程具有上述两个性质：贝尔曼方程把问题递归为求解子问题，价值函数相当于存储...

2019-09-11 16:51:20 325

原创 David Silver强化学习课程 Lecture 2: Markov Decision Processes（总结版）

马尔可夫性：某一状态信息包含了所有相关的历史，只要当前状态可知，所有的历史信息都不再需要，当前状态就可以决定未来，则认为该状态具有马尔科夫性。可以用下面的状态转移概率公式来描述马尔科夫性：马尔科夫过程：又叫马尔科夫链(Markov Chain)，它是一个无记忆的随机过程，可以用一个元组<S,P>表示，其中S是有限数量的状态集，P是状态转移概率矩阵。马尔科夫奖励过程：在马...

2019-09-11 16:48:59 369

原创 Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

2019-08-06 07:10:07 2461

原创 Imagination-Augmented Agents for Deep Reinforcement Learning

文献目录

2019-07-29 20:23:37 1614

原创 Deep Reinforcement Learning for High Precision Assembly Tasks

Introduction背景：机械部件的高精度装配要求精度超过机器人精度；经典的编程方法是通过使用称为“示教器”的控制盒来定义关键位置和运动，从而教导机器人执行工业装配任务。这种在线编程方法通常是繁琐且耗时的。即使在编程之后，由于环境变化，调整用于将机器人部署到新工厂线的参数也需要很长时间；离线编程或模拟可以减少实际机器人的停机时间，但总体上可能需要比在线编程更长的时间，包括在机器人...

2019-06-06 16:59:22 1207

原创 Reinforcement Learning：An Introduction Chapter 1 Introduction

Chapter 1: Introduction人类与环境进行互动，学习环境如何响应我们的行为，并试图通过自身行为影响将来发生的事，这就是一种交互式的学习方式，是人类获取知识的主要来源，同时也是几乎所有学习和智能化理论的基本思想。强化学习正是一种从交互中学习的计算方法，它更侧重于从交互中进行目标导向的学习方式，而不是其他的机器学习方式。1.1 Reinforcement Learning强化...

2019-03-22 09:58:19 1702

原创 David Silver强化学习课程 Lecture 2: Markov Decision Processes

文章目录AbstractMarkov PropertyMarkov ChainExample：Student Markov ChainMarkov Reward ProcessExample: Student Markov Reward ProcessReturn（回报）Value functionExample: Student MRP ReturnsBellman EquationExampl...

2019-03-22 09:58:07 909

原创 Reinforcement Learning：An Introduction Chapter 2 Multi-armed Bandits

文章目录Abstract2.1 k-摇臂赌博机Abstract强化学习使用训练信息来评估所采取的动作，而非使用正确的动作来指导动作的选择。评估性反馈完全依赖于所采取的动作，而指示性反馈独立于所采取的动作。本章讨论的是在单个状态下学习如何采取动作，即非关联性（nonassociative）。2.1 k-摇臂赌博机问题描述：k-摇臂赌博机可以看做k个老虎机，每个老虎机的奖赏都是从某个固定...

2019-03-22 09:58:00 806 2

原创 Reinforcement Learning：An Introduction & David Silver & CS294 强化学习课程学习笔记

笔记Chapter 1 Introduction;Chapter 2 Multi-armed Bandits;Chapter 3 Finite Markov Decision Processes;由于时间有限，第三章开始的笔记链接到的是References中的文章。以后有时间，有新的感悟或补充，会写出来以供交流。References[1] Reinforcement Learning:...

2019-03-22 09:57:48 413

原创 David Silver强化学习课程 Lecture 1: Introduction to Reinforcement Learning

.

2019-03-22 09:57:37 1024

原创 CS231n Lecture 16 | Adversarial Examples and Adversarial Training

Lecture 16主要讲解了什么是对抗样本，为何会发生，它们是如何破坏机器学习系统的，如何防御它们，如何利用它们来提高机器学习性能，即使没有对抗样本。文章目录What are adversarial examples?Why do they happen?How can they be used to compromise machine learning systems?What are t...

2018-10-19 22:31:01 1272

原创 CS231n Lecture 15 | Efficient Methods and Hardware for Deep Learning

Lecture 15主要从算法和硬件两个层面讲解了模型压缩和优化等问题，以实现深度学习模型的体积减少、参数数量缩减、计算量减少、计算加速等。目前深度学习模型存在的几大问题。降低能耗是很重要的，那么这些能量都消耗在哪了呢？上图可以看到存储访问的耗能比数学运算的耗能高两到三个数量级，因此，我们需要将算法和硬件联动设计来实现效能的提升。我们将从以下四个方面来讲解：在此之前，我们先来将...

2018-10-17 16:54:46 1281

原创 CS231n Lecture 14 | Reinforcement Learning

Lecture 13主要讲解了无监督模型和生成模型，其中详细介绍了生成模型中的pixelRNN、pixelCNN、VAE、GAN等图像生成方法。本博客与https://xuyunkun.com同步更新

2018-10-12 11:28:25 1187

原创 CS231n Lecture 13 | Unsupervised Learning and Generative Models

Lecture 13主要讲解了无监督模型和生成模型，其中详细介绍了生成模型中的pixelRNN、pixelCNN、VAE、GAN等图像生成方法。文章目录Unsupervised LearningGenerative ModelsUnsupervised Learning监督式学习我们都很熟悉了，我们有数据x和标签y，我们在的目的是学习到一个函数可以将数据x映射到标签y，标签可以有很多形式。...

2018-10-09 13:59:16 1319

VS2010之MFC入门到精通教程

mfc绘制贝塞尔曲线曲面

mfc贪吃蛇程序

空空如也