![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 57
像我这样迷茫的人
这个作者很懒,什么都没留下…
展开
-
周志华《Machine Learning》强化学习
16、强化学习强化学习(Reinforcement Learning,简称RL)是机器学习的一个重要分支,前段时间人机大战的主角AlphaGo正是以强化学习为核心技术。在强化学习中,包含两种基本的元素:状态与动作,在某个状态下执行某种动作,这便是一种策略,学习器要做的就是通过不断地探索学习,从而获得一个好的策略。例如:在围棋中,一种落棋的局面就是一种状态,若能知道每种局面下的最优落子动作,...原创 2018-11-14 11:36:12 · 1119 阅读 · 0 评论 -
基于强化学习的自动码率调节
今天的主要内容:1. 自适应码流2. 强化学习3. 基于强化学习的自动码率调节 今天的主要内容分三个方面,第一,介绍一下什么叫自适应码流,在自适应码流中我会着重介绍为什么要用自动码率调节。然后会给大家介绍一个很清晰的评价标准来衡量我们做的自动码率调节。第二,介绍强化学习,可能在座的大部分人对强化学习的了解应该不是很多。第三,基于强化学习的自动码率调节,在这里会简单介绍一下怎么样...原创 2019-01-01 12:27:50 · 1313 阅读 · 1 评论 -
DeepMind高赞课程:24小时看完深度强化学习最新进展(视频)
视频网址:https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs 相关微信推文:DeepMind高赞课程:24小时看完深度强化学习最新进展(视频)公众号:深度学习自然语言处理...原创 2018-12-13 17:39:41 · 274 阅读 · 0 评论 -
深度强化学习算法 A3C (Actor-Critic Algorithm)
对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也给想学习的小伙伴一个参考。 想要认识清楚这个算法,需要对 DRL 的算法有比较深刻的了解,推荐大家先了解下 Deep Q-learning 和 Policy Gradient 算法。 我们知道,DRL 算法大致可以分为如下这几个类别:Value Based and Policy Based,其经典算法分别为:Q-lea...原创 2018-11-12 16:18:22 · 2528 阅读 · 0 评论 -
什么是经验回放Experience replay
Experience replay 经验回放根据论文2017 EMNLP中“Learning how to Active Learn: A Deep Reinforcement Learning Approach”利用强化学习来解决主动学习问题。“we use an experience replay memory M to store each transition (s, a, r, s...原创 2018-11-12 16:12:08 · 3991 阅读 · 1 评论 -
强化学习导论 第六章 瞬时时间差分法
这一次开第六章,Temporal-Difference 方法,简称TD,可以翻译为瞬时差分法。TD方法在强化学习算法中有很重要的地位,因为它是一个集大成的算法。TD综合了第五章所说的蒙特卡洛算法和第四章所说的DP算法的特点,既可以从真实经验序列学习,无需环境模型,又可以根据已得到的估计值来更新新的估计值(bootstrap)。这是目前我们需要在脑海中构建的关于TD的一个基本特征。但是虽然T...原创 2018-11-06 10:57:56 · 1648 阅读 · 0 评论 -
强化学习导论 第四章 动态规划
这一篇来讲一下第四章,动态规划。DP这个词,指的是一系列的算法,这些算法主要用来解决:当我有了一个可以完美模拟马尔可夫过程的模型之后,如何计算最优policies的问题。注意是policies,表明最优的策略可能不止一个。经典的DP算法在强化学习中的应用受限的原因有两个:一个是强假设满足不了,就是无法保证我能先有一个完美的模型来描述整个马尔可夫过程;另一个就是计算开销太大。但这仍掩盖不...原创 2018-11-06 10:56:25 · 1060 阅读 · 0 评论 -
强化学习导论 第五章 蒙特卡洛模拟
这一章讲蒙特卡洛方法在强化学习中的应用。在这一章,我们将接触第一个用于估计value functions,并发现最优policies的方法。和前几章不一样的是,这次假设我们并非完全知道环境的动态信息(转移概率啦那些)。蒙特卡洛方法只需要经验知识,即:来自线上或者模拟环境交互过程的样本序列(包括状态序列、动作序列、奖励序列)。从在线的经验中学习非常酷,因为它不需要任何关于环境动态性质的先验知识,...原创 2018-11-06 10:55:13 · 1546 阅读 · 0 评论 -
强化学习导论 第二章 多臂赌博机问题
区分强化学习和其他种类的学习方式最显著的特点是:在强化学习中,训练信息被用于评估动作的好坏,而不是用于指导到底该是什么动作。这也是为何需要主动去做exploration的原因。纯粹的评估性反馈可以表明一个动作的好坏、但并不能知道当前动作是否是最佳选择或者是最差选择。评估性反馈(包括evoluationary method)是方程优化的基础。相对的,纯粹的指导性反馈,表明了当前的最优动作,这个最优动...原创 2018-11-05 16:08:02 · 1199 阅读 · 0 评论 -
强化学习导论 第一章 : 策略 价值函数 奖赏函数 环境等基本概念
这是最近读sutton的“reinforcement learning - An introduction”的读书笔记,其实大多数更像是按照自己理解写的中文翻译,可能语言有时没有那么严谨,主观因素多一点,更像是一种和自己的对话。希望各位看官多多包涵,如果想真正理解一些,最好对照着英文原本看,也许能看出自己的想法。这次第一篇就写第一章。第一章是概述,更多的是从宏观上讲强化学习的一些概念和思想,虽然...原创 2018-11-05 16:05:57 · 2405 阅读 · 0 评论 -
如何看待Pensieve:MIT基于神经网络的流媒体码率自适应策略(周超)
写在前面今年的SIGCOMM上, MIT CSAIL的一支研究团队,发表了一篇名为Pensieve的工作,即利用神经网络优化码率自适应算法,用于提高媒体传输质量。文章结果表明:与一般的state-of-the-art 方法相比,Pensieve能平均提升QoE高达12%–25%。之所以介绍这篇文章,基于以下几方面的原因:一是自己从事流媒体传输优化的研究多年,也小有成果,对这类研究自然非常感...原创 2018-11-01 16:07:21 · 5138 阅读 · 3 评论 -
强化学习:函数逼近思想
在开始这一篇内容之前,让我们先回顾一下前8篇所提及的内容。概括地说,前八篇所讲到的各种强化学习方法(DP、MC、TD等),有一个共同套路:即采用数据表存储每一个状态(state)的价值量(value),然后用不同的方式更新这些状态的value,直至收敛;最后根据每个状态下不同动作(action)对应的value,决定应该选择哪个状态,也就是确定了策略(policy)。尽管不同的方法之间有些小的差异...原创 2018-11-13 11:02:13 · 6056 阅读 · 1 评论 -
李宏毅深度强化学习笔记(一)Outline
李宏毅深度强化学习- Outline李宏毅深度强化学习课程评价:强化学习:举例深度学习的特点:强化学习方法Policy-based approach -- learn an actorValue-based approach -- learn a criticActor-Critic李宏...原创 2019-04-02 16:36:00 · 408 阅读 · 0 评论