深度强化学习目录

最新推荐文章于 2024-04-05 17:14:40 发布

DKwtno

最新推荐文章于 2024-04-05 17:14:40 发布

阅读量1.1k

点赞数

分类专栏：深度强化学习文章标签：深度学习深度强化学习李宏毅

本文链接：https://blog.csdn.net/qq_39160779/article/details/107281222

版权

深度强化学习专栏收录该内容

11 篇文章

订阅专栏

来源

大部分来源于B站视频李宏毅2020-深度学习，少部分来源CSDN，简书，知乎。

0.强化学习概述+policy based+value based
1.贝尔曼方程（Bellman equation）
2.策略梯度（Policy Gradient）+Gradient Ascent
3.Proximal Policy Optimization(PPO)+on/off policy
4.蒙特卡洛（Monte-Carlo, MC）+时序差分（Temporal Difference, TD）
5.Q-learning
6.DQN(Deep Q-Network)+Double DQN+Dueling DQN
7.连续空间上的Q-learning
8.Actor-Critic+A2C+A3C

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DKwtno

关注关注

0
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

《强化学习》-读书笔记-总目录

小了白了兔_白了又了白的博客

12-30

808

章节目录1. 导论I 表格型求解方法2. 多臂赌博机K臂赌博机增量式实现跟踪一个非平稳问题乐观初始值基于置信度上界（UCB）的动作选择梯度赌博机算法3. 有限马尔科夫决策过程（有限MDP）目标和收益回报和分幕策略和价值函数最优策略与最优价值函数 1. 导论参考书籍：https://item.jd.com/12696004.html 在交互中学习是几乎所有学习和智能理论的基本思想，强化学习相比于其他机器学习方法，更加侧重于以交互目标为导向进行学习。强化学习四要素：策略、收益、价值函数、环境模型。策略：

Deep Reinforcement Learning（深度强化学习分类）

csyifanZhang的博客

02-25

1951

强化学习分类 Policy-based or value-based 强化学习两大类，Policy-Based(Policy Gradients) Value-Based(Q-Learning)。Policy-Based直接预测环境状态下应采取Action，Value-Based预测环境状态下所有Action期望价值(Q值)，选择Q值最高Action执行。Value-Based适合少量离散取值Ac...

参与评论您还未登录，请先登录后发表或查看评论

强化学习目录

qq_40206371的博客

07-30

458

强化学习笔记1：强化学习概述_刘文巾的博客-CSDN博客强化学习笔记2：序列决策(Sequential Decision Making)过程_刘文巾的博客-CSDN博客强化学习笔记3：RL agent的主要组成部分_刘文巾的博客-CSDN博客强化学习笔记4：强化学习分类_刘文巾的博客-CSDN博客强化学习笔记5：learning&planning， exploration&exploitation_刘文巾的博客-CSDN博客 ...............

【学习强化学习】总目录

weixin_42301220的博客

06-26

985

强化学习知识点目录

强化学习笔记总目录

chenxy_bwave的专栏

12-04

8903

强化学习自学笔记，主要基于Sutton-RLbook-2020。除了概念学习外，力争以自主手撕python的代码的方法将书中所提及的所有算法全部实现一遍。

强化学习的学习之路（零）_2021-00-00：目录

热爱可抵漫长岁月

01-06

1716

作为一个新手，写这个教程也是想和大家分享一下自己学习强化学习的心路历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己能保证起码平均一天一更的速度，先是介绍强化学习的一些基础知识，后面介绍强化学习的相关论文。本来是想每一篇多更新一点内容的，后面想着大家看CSDN的话可能还是喜欢短一点的文章，就把很多拆分开来了，完整的我整理好了会放在github上，大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！为了便于大家能够更清楚地了解到都有什么内容，在这里放一下目录：强化学习的基本介绍（一）强化的

基于深度强化学习的自动驾驶算法研究及其在CARLA中的测试验证

最新发布

09-26

本文提出了一种基于深度强化学习的自动驾驶算法，来学习更加智能的驾驶策略。此算法能够通过与仿真环境交互，采用端到端的学习策略，从车辆的鸟瞰图(Birds Eye View,BEV)中直接学习到车辆的决策指令，并进一步转化为...

基于深度强化学习的主动配电网电压控制策略matlab源码+详细注释.zip

11-06

基于深度强化学习的主动配电网电压控制策略matlab源码+详细注释.zip基于深度强化学习的主动配电网电压控制策略matlab源码+详细注释.zip基于深度强化学习的主动配电网电压控制策略matlab源码+详细注释.zip基于深度...

深度学习之强化学习.pdf

04-04

深度学习之强化学习 深度学习之强化学习是指使用深度学习技术来解决强化学习问题的方法。强化学习是一种机器学习方法，它通过让智能体与环境交互，学习到使奖励最大化的策略。深度学习之强化学习结合了深度学习和...

Python基于深度强化学习的MEC计算卸载与资源分配源码.zip

11-03

Python基于深度强化学习的MEC计算卸载与资源分配源码.zipPython基于深度强化学习的MEC计算卸载与资源分配源码.zipPython基于深度强化学习的MEC计算卸载与资源分配源码.zipPython基于深度强化学习的MEC计算卸载与资源...

基于深度强化学习的双目标动态感知路径规划方法python源码.zip

11-06

基于深度强化学习的双目标动态感知路径规划方法python源码.zip基于深度强化学习的双目标动态感知路径规划方法python源码.zip基于深度强化学习的双目标动态感知路径规划方法python源码.zip基于深度强化学习的双目标...

强化学习进化策略：强化学习和进化策略的根目录

02-13

强化学习进化策略强化学习和进化策略的根目录

深度强化学习（二）强化学习算法的分类

daydayjump的博客

06-17

3万+

对于强化学习的分类，主要参考了莫烦大佬的视频和OpenAI的Spinning Up的介绍。一、Model-Free和Model-Based两大类上图是Spinning Up中的分类图。对于model的理解就是强化学习中的环境。根据是否去学习环境来进行分类。根据转移概率是否已知进行分类的。 Model-free就是不去学习和理解环境，环境给出什么信息就是什么信息，常见的方法有polic...

深度强化学习（DRL）简介与常见算法（DQN，DDPG，PPO，TRPO，SAC）分类

热门推荐

b_b1949的博客

02-13

6万+

简单介绍深度强化学习的基本概念，常见算法、流程及其分类（持续更新中），方便大家更好的理解、应用强化学习算法，更好地解决各自领域面临的前沿问题。欢迎大家留言讨论，共同进步。

深度强化学习笔记——基本方法分类与一般思路

One step, One punch

08-23

1534

概要本文梳理了一下台大李宏毅老师的深度强化学习系列课程内容。该课程主要是对无模型深度强化学习方法的一些大致介绍，将其分为大致三类：基于值函数的、基于梯度的方法、actor-critic的方法。（其他方法还有模仿学习imitation learning与逆强化学习inverse reinforcement learning）分类方法可以见下图：本文对三大类方法的基本思路进行阐述，为了写作的方便，文中的图大部分来自课件中的原图。有任何不准确的地方望指正！ 1. 基于梯度的方法（Policy-based

深度强化学习

喜欢打酱油的老鸟

02-04

3744

https://www.toutiao.com/a6652493457161978376/ 2019-01-31 11:12:13 深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。简介 深度强化学习的框架 深度学习具有较强的感知能力，但是缺乏一定的决策能力;而强化学习具有决策能力，对感知问题束...

强化学习算法的分类

weixin_41106546的博客

04-05

1362

另一方面，在实际应用中，学习得到的模型往往是不准确的，这给智能体训练引入了估计误差，基于带误差模型的策略的评估和提升往往会造成策略在真实环境中失效。一些常见的Actor-Critic类的算法包括Actor-Critic（AC）算法(Suttonetal., 2018) 和一系列改进：（1）异步优势Actor-Critic算法（A3C）(Mnihetal.,2016)将Actor-Critic 方法扩展到异步并行学习，打乱数据之间的相关性，提高了样本收集速度和训练效率；与基于模型的方法相比，

深度强化学习系列(1): 深度强化学习概述

深度强化学习(DeepRL)探索博客

03-30

2万+

深度强化学习及其在自动驾驶中的应用( DRL & ADS ) 专栏系列文章规划 DRL&ADS系列之(1): 强化学习概述 DRL&ADS系列之(2): 深度强化学习及算法讲解 DRL&ADS系列之(3): ADS软硬件分析及DRL在Torcs中的应用概述机器学习是人工智能的一个分支，在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学...

深度强化学习汇总

一番の宝物

03-30

2028

从多臂赌博机问题到强化学习多臂赌博机，每次投币后只能选择按下一个臂，这个臂会有一定的概率给出奖励，但是我们并不知道每个臂给奖励的概率分布，那么如何获得最大收益呢？我们有两种策略，探索和利用，探索是把所有的机会均分给每个臂，根据历史获得奖励的频率去近似它的真实奖励概率；利用就是每次都选择获得奖励频率最大的那个臂。探索可以更好的了解它的概率分布，从而制定更好的策略，缺点是会失去很多获得奖励的机会...