强化学习
文章平均质量分 77
强化学习,学习笔记
哈喽十八子
这个作者很懒,什么都没留下…
展开
-
强化学习_经典论文框架
汇总文章目录汇总PaperDQN Series【2010】Double Q-learning【2013】【DQN】【2015】【Nature DQN】【2015】【Double DQN】【2016】【Dueling DQN】【2016】【Prioritized DQN】Policy Gradient【2000】【PG】【2014】【DPG】【2015】【DDPG】【2017】【PPO】Actor-Critic Series【2016】【A3C】【2018】【SAC】AlphaGo Series (wit原创 2022-02-08 21:29:43 · 979 阅读 · 0 评论 -
强化学习_知识框架&笔记(Python)
《强化学习:原理与Python实现》原创 2021-12-28 08:58:12 · 511 阅读 · 0 评论 -
强化学习_知识框架&笔记(Sutton)
《强化学习》Suttun原创 2021-12-28 08:56:04 · 379 阅读 · 0 评论 -
集成学习&强化学习及其在群体学习&群体决策中的借鉴意义
文章目录1. 集成学习BaggingBoosting“好而不同”的原则“不同”的需求“好”的度量2. 强化学习简介实践过程中的一系列问题3. 集成学习&强化学习的结合强化学习问题的解决模型的弱化和协同训练试错空间的并行搜索交互的并行和经历库的共享优势汇总4. 借鉴意义群体决策中的“好而不同”原则群体学习中的两次共享原始经历的共享隐式经验的共享5. 附在最近的一个项目里强化学习:项目经验汇总,结合集成学习 + 强化学习,实现了图数据中的一个搜索任务。总结下来,感受到集成学习和强化学习结合在一起,在原创 2021-04-03 17:41:21 · 2963 阅读 · 1 评论 -
强化学习:训练过程感知与理解
训练过程是怎样进行的粗略的更新方程q(s,a)=q(s,a)+ϵ(U−q(s,a))q(s,a)=q(s,a)+\epsilon(U-q(s,a))q(s,a)=q(s,a)+ϵ(U−q(s,a))SARSA :U=r+γ⋅q(s′,a′)U=r+\gamma·q(s',a')U=r+γ⋅q(s′,a′)Q-LearningU=r+γ⋅maxq(s′,a′)U=r+\gamma·\max q(s',a')U=r+γ⋅maxq(s′,a′)Double Q-LearningU=r+γ⋅q(s原创 2021-02-03 23:25:44 · 1340 阅读 · 0 评论 -
强化学习:训练加速技巧
文章目录什么会导致训练慢庞大的探索空间模型的训练经验的积累智能体-环境交互相应的加速对策加速搜索利用状态空间的对称性规则启发广义策略迭代ϵ\epsilonϵ-贪婪策略规则引导和启发加速模型训练加速经验积累加速交互相比于监督学习和非监督学习,(深度)强化学习模型的训练过程显得更加的缓慢。因此,可能训练过程中需要一些技巧,希望可以提高的训练效率。根据以往模型训练和近期项目中的一些经验,汇总出一些有助于训练加速和模型收敛的策略或技巧,以供参考。什么会导致训练慢大概有一下几方面。庞大的探索空间一般来说原创 2021-02-03 23:24:05 · 5137 阅读 · 0 评论 -
记一次基于强化学习的有向图搜索
文章目录一些闲话关于项目要解决的问题环境建模状态动作状态转移奖励设置不同版本的游戏规则一些技巧和经验动作选择学习率模型主体经验回放考虑结合集成学习其他一些闲话距离上一次更新已经过去三个月了。记得大学养生通识课上说,春发,夏长,秋收,冬藏。果然,天一冷,精力没有春夏秋那么旺盛了,天一晚脑子就木,步也不怎么跑了,博客也不怎么更了,看书效率也低了。好在前面几个季度,减肥效果还是比较有成效的,冬天空气也不太好,暂且修养一段时间,等天暖和之后继续跑步和更新博客。近期,某个项目用到了强化学习的思路,趁热打铁,把原创 2021-01-31 01:07:24 · 863 阅读 · 0 评论 -
强化学习:多臂赌博机--磨刀不误砍柴工
文章目录强化学习:多臂赌博机--磨刀不误砍柴工多臂赌博机の游戏规则强化学习:多臂赌博机–磨刀不误砍柴工平时我们说,“磨刀不误砍柴工”,通常说的是做事之前精心准备,虽然耗费了一定的时间,但由于提高了后面做事情的效率,相比于直接低效率做事情,还是会有更多的收益。强化学习中也有一个类似的问题,即 探索 和 开发 之间的平衡问题(Explore-Exploit)。探索即试错的过程,就像磨刀一样,会浪费一些机会、时间或者精力,导致一定时间内的收益会很少或者没有,但为了后面的开发打下了很好的基础;开发即收获的原创 2020-11-17 20:58:00 · 357 阅读 · 0 评论 -
强化学习:章节汇总
强化学习-章节汇总强化学习0:章节汇总强化学习1:什么是强化学习强化学习2:马尔科夫决策过程强化学习3:Bellman方程迭代求解强化学习4:回合更新价值迭代强化学习5:时序差分价值迭代...原创 2020-11-14 23:35:42 · 112 阅读 · 0 评论 -
强化学习5:时序差分价值迭代
文章目录时序差分价值迭代 TD(nstep)TD(n_{step})TD(nstep)同策时序差分策略评估SARSA / SARSA(n)异策时序差分重要性采样Q学习(Q-Learning)双重Q学习(Double Q-Learning)资格迹算法 TD(λ)TD(\lambda)TD(λ)时序差分目标Ut:t+iU_{t:t+i}Ut:t+i和λ\lambdaλ回报资格迹函数e(s,a)e(s, a)e(s,a)TD(λ)TD(\lambda)TD(λ)和SARSASARSASARSA的比较时序差原创 2020-11-14 23:29:58 · 286 阅读 · 0 评论 -
强化学习4:回合更新价值迭代
文章目录回合更新价值迭代同策策略评估回合更新起始探索柔性策略(ϵ−soft)(\epsilon-soft)(ϵ−soft)异策重要性采样策略评估回合更新求解最优策略回合更新价值迭代有模型动力函数 p(s’,r∣s,a)p(s’,r | s, a)p(s’,r∣s,a)方案:解Bellman期望方程/最优方程,方程求解 / 线性规划 / 动态规划算法:因为有模型(动力函数),可以策略迭代(Bellman期望方程),也可以价值迭代(Bellman最优方程)无模型幕序列 (S0,A0,原创 2020-11-14 23:29:14 · 696 阅读 · 0 评论 -
强化学习3:Bellman方程迭代求解
文章目录Bellman方程迭代求解 -> 最优策略数学基础有模型策略迭代有模型价值迭代动态规划思想Bellman方程迭代求解 -> 最优策略数学基础度量空间压缩映射Bellman算子Banach不动点理论有模型策略迭代广义策略迭代策略评估策略改进策略迭代节约空间版本(原地迭代)有模型价值迭代迭代求解最优价值函数动态规划思想...原创 2020-11-14 23:28:25 · 711 阅读 · 4 评论 -
强化学习2:马尔科夫决策过程
文章目录马尔科夫决策过程基本概念环境vs智能体环境的描述——动力函数智能体的描述——策略两者的联系——bellman期望方程基本元素价值函数转移方程和备份图最优策略bellman最优秀方程bellman 方程解析解 -> 最优策略马尔科夫决策过程基本概念马尔可夫性马尔可夫过程环境vs智能体环境的描述——动力函数动力函数 p(s’,r∣s,a)p(s’,r|s, a)p(s’,r∣s,a)智能体的描述——策略策略函数 π(a∣s)\pi(a|s)π(a∣s)两者的联系——bell原创 2020-11-14 23:27:43 · 185 阅读 · 0 评论 -
强化学习1:什么是强化学习
文章目录什么是强化学习?强化学习的来源强化学习能做什么?强化学习关键词强化学习分类什么是强化学习?强化学习的来源强化学习(Reinforcement Learning, RL),一般也称作增强学习,和心理学、动物行为的研究等领域很有渊源。心理学中,“强化” 指生物受到外界环境中的某些刺激后,自觉或者不自觉调整应对策略,达到趋利避害。举个例子。马戏团训练动物时(比方说猴子),训导员首先会发出某种指令(比方说抬一下手,表示希望猴子跳一下),动物接收到这个指令后,如果做出了正确的动作,会得到一定的奖原创 2020-11-14 23:22:40 · 1424 阅读 · 0 评论