![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能
文章平均质量分 94
xyt_369587353
专注数据挖掘和深度强化学习,github地址:https://github.com/demomagic
展开
-
深度强化学习9——Deep Deterministic Policy Gradient(DDPG)
从名字上看DDPG是由D(Deep)+D(Deterministic)+PG(Policy Gradient)组成,我们在深度强化学习7——策略梯度(Policy Gradient)已经讲过PG,下面我们将要了解确定性策略梯度(Deterministic Policy Gradient,简称DPG)。Deterministic Policy Gradient(DPG)为什么需要确定性策略梯...原创 2019-11-25 22:19:21 · 4073 阅读 · 0 评论 -
深度强化学习7——策略梯度(Policy Gradient)
前面讲到的DQN系列强化学习,主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,主要面临以下问题:对连续动作的处理能力不足。DQN之类的方法一般都是只处理离散动作,无法处理连续动作,实际上value-based方法在训练时需要在某个状态下选取使Q值最大的动作,这相当于在所有连续...原创 2019-11-13 01:06:54 · 2229 阅读 · 1 评论 -
深度强化学习6——DQN的改进方法
在上一篇文章我们提到了DQN还存在的问题:1)目标Q值的计算是否准确?全部通过max Q来计算有没有问题?2)随机采样的方法好吗?按道理不同样本的重要性是不一样的。3)Q值代表状态,动作的价值,那么单独动作价值的评估会不会更准确?相应的改进方法是Double DQN、Prioritised Replay DQN、Dueling DQN,下面我们将一一介绍这些方法。Doub...原创 2019-11-06 19:42:58 · 6204 阅读 · 0 评论 -
深度强化学习4——时序差分学习(TD)的Q learning和Sarsa learning
前面我们讲到了蒙特卡洛方法在未知环境下求解马尔科夫决策过程(MDP),然而蒙特卡洛方法也有自身的限制,蒙特卡洛方法就是反复多次试验,求取每一个实验中每一个状态s的值函数,也就是说,只要这个MDP是有终点的,我们就可以计算出每一个状态下的Return,也就是说蒙特卡罗法通过采样若干经历完整的状态序列(episode)来估计状态的真实价值,所谓的经历完整,就是这个序列必须是达到终点的。比如下棋问题分出...原创 2019-11-05 15:54:26 · 4277 阅读 · 0 评论 -
深度强化学习1——强化学习到深度强化学习
从事深度强化学习有一段时间了,整理了网上的一些资料,写几篇博客作为知识的梳理和总结。开讲前,先给大家看个深度强化学习的例子,下面是深度学习cnn和强化学习结合玩吃豆人的游戏看图像我们会发现吃豆人会,吃掉一闪一闪的豆子来消灭怪物,仔细观察会发现,经过训练的吃豆人,甚至会停在某个角落来躲避怪物,这是一个非常有趣的现象,后面会附有个人深度强化学习项目地址。下面我们开始正式介绍强化学习。一...原创 2018-10-05 22:04:43 · 65717 阅读 · 5 评论 -
深度强化学习2——马尔科夫决策过程(MDP)
本文讲解思路从马科夫过程(MP) 到马尔科夫奖励过程(MRP)最后到马尔科夫决策过程(MDP)。首先我们要了解马尔科夫性,在上一章1.3我们也提到,当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性。下面用公式来描...原创 2018-10-07 20:08:52 · 10619 阅读 · 2 评论