强化学习
奔跑着的孩子
认知无线电频谱感知与资源分配,机器学习
展开
-
强化学习(Reinforcement Learning)背景介绍
强化学习前世今生也可以直接查看本博主强化学习专栏的简介:https://blog.csdn.net/gsww404/article/details/79763003 [直接点击查看完整版]如今机器学习发展的如此迅猛,各类算法层出不群,特别是深度神经网络的发展,为非常经典的强化学习带来了新的思路,虽然强化学习一直在发展中,但在2013年这个关键点,DeepMind大...转载 2018-12-06 11:09:54 · 5118 阅读 · 0 评论 -
增强学习(一) ----- 基本概念
机器学习算法大致可以分为三种: 1. 监督学习(如回归,分类) 2. 非监督学习(如聚类,降维) 3. 增强学习什么是增强学习呢?增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。定义: Reinforcement ...转载 2018-12-06 15:40:33 · 311 阅读 · 0 评论 -
增强学习(二)----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。马尔可夫决策过程(Markov Decision Process, MDP)也具有马尔可夫性,与...转载 2018-12-06 15:45:38 · 521 阅读 · 0 评论 -
增强学习(三)----- MDP的动态规划解法
上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的增强学习)。那么如何求解最优策略呢?基本的解法有三种:动态规划法(dynamic programming methods)蒙特卡罗方法(Monte Carlo methods)时间差分法(te...转载 2018-12-06 16:40:36 · 559 阅读 · 0 评论 -
增强学习(四) ----- 蒙特卡罗方法(Monte Carlo Methods)
1. 蒙特卡罗方法的基本思想 蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基础的方法。一个简单的例子可以解释蒙特卡罗方法,假设我们需要计算一个不规则图形的面积,那么图形的不规则程度和分析性计算(比如积分)的复杂程度是成正比的。而采用蒙特卡罗方法是怎么计算的呢?首先你把图形...转载 2018-12-06 16:42:21 · 885 阅读 · 0 评论 -
增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)
接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性:需要环境模型,即状态转移概率状态值函数的估计是自举的(bootstrapping),即当前状态值函数的更新依赖于已知的其他状态值函数。相对的,蒙特卡罗方法的特点则有:可以从经验中学习不需要环境模型状态值函数的估计是相互独立的只能用于episode tasks而我们希望的算法是这样的:不...转载 2018-12-06 16:47:37 · 554 阅读 · 0 评论 -
强化学习如何入门
强化学习如何入门强化学习如何入门参考书目知乎专栏博客专栏视频教程实践代码学习建议参考书目《Reinforcement Learning : An introduction》 提到强化学习,就不得不提这本书了,这是强化学习的奠基人Sutton历时多年,几经修改撰写的强化学习领域最经典的书,如果能够将该书从头到尾啃下,基...转载 2018-12-06 17:09:49 · 254 阅读 · 0 评论 -
Multi-armed Bandits(多臂老虎机问题)
作者:微软亚洲研究院链接:https://www.zhihu.com/question/53381093/answer/245802834来源:知乎https://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=2649441835&idx=1&sn=abf10e00dd2354a0f256620b9e1fcda9&...转载 2019-02-25 11:25:47 · 22471 阅读 · 1 评论