![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 94
xyt_369587353
专注数据挖掘和深度强化学习,github地址:https://github.com/demomagic
展开
-
深度强化学习3——蒙特卡罗方法(MC)
前面我们介绍了用动态规划求解马尔科夫决策过程(MDP),然而需要已知环境信息,然而现实环境很多都是未知的,我们会用什么方法求解呢?蒙特卡罗方法(MC),时序差分学习(TD)都可以求解未知环境下的强化学习问题,本章主要介绍蒙特卡罗方法。蒙特卡洛方法基本思想当我们无法得到模型内容时,就需要通过不断模拟的方式得到大量相关的样本,并通过样本得到我们预期得到的结果,通常蒙特卡罗方法可以粗略地分成两类...原创 2019-10-07 22:24:31 · 4215 阅读 · 0 评论 -
深度强化学习9——Deep Deterministic Policy Gradient(DDPG)
从名字上看DDPG是由D(Deep)+D(Deterministic)+PG(Policy Gradient)组成,我们在深度强化学习7——策略梯度(Policy Gradient)已经讲过PG,下面我们将要了解确定性策略梯度(Deterministic Policy Gradient,简称DPG)。Deterministic Policy Gradient(DPG)为什么需要确定性策略梯...原创 2019-11-25 22:19:21 · 4104 阅读 · 0 评论 -
深度强化学习8——Actor-Critic(AC、A2C、A3C)
上篇文章我们讲到Policy Gradient可能给出的action分布是比较极端的,导致很多状态无法进行探索,陷入局部最优,本篇我们将讨论策略(Policy Based)和价值(Value Based)相结合的方法:Actor-Critic算法。在讨论Actor-Critic算法前,我们回顾一下Policy Gradient方法的完整流程,如下图所示:先采集相应的数据包括状态、动作和...原创 2019-11-17 22:12:06 · 10177 阅读 · 3 评论 -
深度强化学习6——DQN的改进方法
在上一篇文章我们提到了DQN还存在的问题:1)目标Q值的计算是否准确?全部通过max Q来计算有没有问题?2)随机采样的方法好吗?按道理不同样本的重要性是不一样的。3)Q值代表状态,动作的价值,那么单独动作价值的评估会不会更准确?相应的改进方法是Double DQN、Prioritised Replay DQN、Dueling DQN,下面我们将一一介绍这些方法。Doub...原创 2019-11-06 19:42:58 · 6230 阅读 · 0 评论 -
深度强化学习5——Deep Q-Learning(DQN)
之前大量叙述了强化学习的基本原理,至此才开始真正的深度强化学习的部分。2013和2015年DeepMind的Deep Q Network(DQN)它用一个深度网络代表价值函数,依据强化学习中的Q-Learning,为深度网络提供目标值,对网络不断更新直至收敛。用DQN从玩各种电子游戏开始,直到训练出阿尔法狗打败了人类围棋选手。本篇文章也主要围绕DeepMind的论文Playing Atari wi...原创 2019-11-05 20:19:08 · 5813 阅读 · 0 评论 -
深度强化学习4——时序差分学习(TD)的Q learning和Sarsa learning
前面我们讲到了蒙特卡洛方法在未知环境下求解马尔科夫决策过程(MDP),然而蒙特卡洛方法也有自身的限制,蒙特卡洛方法就是反复多次试验,求取每一个实验中每一个状态s的值函数,也就是说,只要这个MDP是有终点的,我们就可以计算出每一个状态下的Return,也就是说蒙特卡罗法通过采样若干经历完整的状态序列(episode)来估计状态的真实价值,所谓的经历完整,就是这个序列必须是达到终点的。比如下棋问题分出...原创 2019-11-05 15:54:26 · 4340 阅读 · 0 评论 -
深度强化学习1——强化学习到深度强化学习
从事深度强化学习有一段时间了,整理了网上的一些资料,写几篇博客作为知识的梳理和总结。开讲前,先给大家看个深度强化学习的例子,下面是深度学习cnn和强化学习结合玩吃豆人的游戏看图像我们会发现吃豆人会,吃掉一闪一闪的豆子来消灭怪物,仔细观察会发现,经过训练的吃豆人,甚至会停在某个角落来躲避怪物,这是一个非常有趣的现象,后面会附有个人深度强化学习项目地址。下面我们开始正式介绍强化学习。一...原创 2018-10-05 22:04:43 · 65897 阅读 · 5 评论 -
深度强化学习2——马尔科夫决策过程(MDP)
本文讲解思路从马科夫过程(MP) 到马尔科夫奖励过程(MRP)最后到马尔科夫决策过程(MDP)。首先我们要了解马尔科夫性,在上一章1.3我们也提到,当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性。下面用公式来描...原创 2018-10-07 20:08:52 · 10638 阅读 · 2 评论