
强化学习
记录博主学习RL的知识点
白水baishui
天光乍破
-
原创 强化学习算法分类汇总
文章目录1. Model-Free 与 Model-Based RL2. Policy-Based 与 Value-Based RL3. Monte-Carlo Update 与 Temporal-Difference Update RL4. On-Policy 与 Off-Policy RL1. Model-Free 与 Model-Based RL根据Agent是否理解其所处的环境,可以将强化学习方法分为:无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based R2021-02-24 22:57:2444
0
-
翻译 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning深度强化学习的简要概述作者:Kai Arulkumaran, Marc Peter Deisenroth, Miles Brundage, Anil Anthony Bharath文章目录摘要 Abstract1. 引言 Introduction2. 奖励驱动行为 Reward-Driven Behavior2.1. 马尔科夫决策过程 Markov Decision Processes2.2. 强化学习的挑2021-01-28 11:32:30127
1
-
原创 强化学习——表格法 Tabular Methods
本博客将介绍最简单的表格型方法(tabular methods)来讲解如何使用value-based方法求解强化学习过程。文章目录1. 马尔科夫决策过程 MDP1.1. 基于模型的马尔科夫决策过程 Model-based1.2. 无模型的马尔科夫决策过程 Model-free1.3. 基于模型与无模型的对比2. Q表格 Q-table3. 无模型预测 Model-free Prediction1. 马尔科夫决策过程 MDP强化学习有三个要素:状态、动作和奖励。强化学习Agent跟环境是一步一步交互.2021-01-01 20:32:37117
0
-
原创 强化学习——马尔科夫决策过程 MDP
文章目录1. 马尔科夫过程 Markov Process,MP1.1. 马尔科夫性质 Markov Property1.2. 马尔科夫链 Markov Chain2. 马尔科夫反馈过程 Markov Reward Process,MRP3. 马尔科夫决策过程 Markov Decision Process,MDP马尔可夫决策过程是强化学习里面的一个基本框架,在马尔可夫决策过程的定义中,Agent所处的环境是 Fully Observable ,就是全部可以观测的。但是很多时候环境里面有些量是不可观测的,这2020-11-29 12:22:462981
2
-
原创 强化学习——强化学习概述
本篇博客是对强化学习的基本概念进行解释,无深入的算法推导文章目录1.强化学习 Reinforcement Learning1.1. 强化学习的目的1.2. 强化学习的过程1.3. 强化学习的特点2. 序列决策过程 Sequential Decision Making2.1. 智能体(Agent)与动作空间(Action Spaces)2.1.1. 智能体 Agent2.1.1.1. 策略函数2.1.1.2. 价值函数2.1.1.3. 模型2.1.1.4. 智能体的分类2.1.2. 动作空间 Actio.2020-11-20 20:12:55757
1