最NB强化学习路线图

最新推荐文章于 2024-04-23 14:26:21 发布

xinxing_Star

最新推荐文章于 2024-04-23 14:26:21 发布

阅读量1.9k

点赞数 3

分类专栏：强化学习文章标签：算法概率论机器学习

本文链接：https://blog.csdn.net/qq_38361726/article/details/120757857

版权

强化学习专栏收录该内容

2 篇文章 2 订阅

订阅专栏

强化学习路线图

人工智能是21世纪最激动人心的技术之一。人工智能，就是像人一样的智能，而人的智能包括感知、决策和认知(从直觉到推理、规划、意识等)。其中，感知解决what，深度学习已经超越人类水平；决策解决how，强化学习在游戏和机器人等领域取得了一定效果；认知解决why，知识图谱、因果推理、持续学习以及脑机融合等正在研究。

强化学习，采用反馈学习的方式解决序贯决策问题，因此必然是通往通用人工智能的终极钥匙。其中，AI 1.0 符号学派， AI 2.0 联结学派，AI 3.0不管是结合也好，另辟蹊径也好，必然离不开行为学派，因为这是自然智能的学习方式。我特别喜欢强化学习，深深被其框架所吸引，智能体通过与环境交互来成长，这不就是生命的进化规律嘛！

个人作为一名AI独立研究员，一路也是通过知乎、b站、GitHub、公众号和各类博客学习过来，非常感谢网络时代大家的分享，同时将自己在强化学习方面的经验总结整理分享，既是方便自己学习，也希望能帮助一点刷到这条帖子的朋友们。当然，强化学习也面临很多问题，希望我们一起解决，让强化学习变得更好！

1. 视频（从入门到放弃）

1.1 腾讯_周沫凡_强化学习、教程、代码

强化学习 Reinforcement Learning (莫烦 Python 教程)_哔哩哔哩 (゜-゜)つロ干杯~-bilibiliwww.bilibili.com/video/av16921335?from=search&seid=7037144790835305588正在上传…重新上传取消

莫烦Pythonmorvanzhou.github.io/正在上传…重新上传取消

https://github.com/AndyYue1893/Reinforcement-learning-with-tensorflowgithub.com/AndyYue1893/Reinforcement-learning-with-tensorflow

1.2 DeepMind_David Silver_UCL深度强化学习课程(2015)、PPT、笔记及代码

【中文字幕】David Silver深度强化算法学习 +项目讲解_哔哩哔哩 (゜-゜)つロ干杯~-bilibiliwww.bilibili.com/video/av45357759?from=search&seid=7037144790835305588正在上传…重新上传取消

CSDN-专业IT技术社区-登录blog.csdn.net/u_say2what/article/details/89216190

David Silver强化学习学习笔记及编程实践合集327 赞同 · 38 评论文章

1.3 台大_李宏毅_深度强化学习(国语)课程(2018)、PPT、笔记

李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩 (゜-゜)つロ干杯~-bilibiliwww.bilibili.com/video/av24724071?from=search&seid=7037144790835305588正在上传…重新上传取消

Hung-yi Leespeech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html

CSDN-专业IT技术社区-登录blog.csdn.net/cindy_1102/article/details/87904928

1.4 UC Berkeley_Sergey Levine_CS285(294)深度强化学习(2019)、PPT、代码

伯克利课程：深度强化学习 (2019) by Sergey Levine_哔哩哔哩 (゜-゜)つロ干杯~-bilibiliwww.bilibili.com/video/av69455099?from=search&seid=7037144790835305588正在上传…重新上传取消

http://rail.eecs.berkeley.edu/deeprlcourse/rail.eecs.berkeley.edu/deeprlcourse/

https://github.com/berkeleydeeprlcourse/homeworkgithub.com/berkeleydeeprlcourse/homework

1.5 Stanford_Emma Brunskill_CS234: Reinforcement Learning | Winter 2019

2. 书籍

2.1 强化学习圣经_Rich Sutton_中文书、英文电子书、代码 ★★★★★

基础必读，有助于理解强化学习精髓

《强化学习（第2版）》([加]RichardS.Sutton、[美]AndrewG.Barto)【摘要书评试读】- 京东图书item.jd.com/12696004.html

Reinforcement Learning: An Introductionincompleteideas.net/book/the-book-2nd.html正在上传…重新上传取消

https://github.com/AndyYue1893/reinforcement-learning-an-introductiongithub.com/AndyYue1893/reinforcement-learning-an-introduction

2.2 Python深度学习：基于PyTorch[Deep Learning with Python and PyTorch] ★★★★★

思路简洁、清晰，内容经典、精华，深度强化学习研究基础

《Python深度学习：基于PyTorch》(吴茂贵，郁明敏，杨本法，李涛，张粤磊)【摘要书评试读】- 京东图书item.jd.com/12590209.html

2.3 Python强化学习实战_Sudharsan Ravichandiran、代码 ★★★★

上手快，代码清晰

《Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习》([印度]苏达桑·拉维尚迪兰（Sudharsan,Ravichandiran）)【摘要书评试读】- 京东图书item.jd.com/12506442.html

AndyYue1893/Hands-On-Reinforcement-Learning-With-Pythongithub.com/AndyYue1893/Hands-On-Reinforcement-Learning-With-Python正在上传…重新上传取消

2.4 强化学习精要_冯超 ★★★★

从基础到前沿，附代码

《强化学习精要：核心算法与TensorFlow实现》(冯超)【摘要书评试读】- 京东图书item.jd.com/12344157.html

2.5 Reinforcement Learning With Open AI TensorFlow and Keras Using Python_OpenAI

注重实战（提取码: av5p）

https://pan.baidu.com/s/1nQpNbhkI-3WucSD0Mk7Qcgpan.baidu.com/s/1nQpNbhkI-3WucSD0Mk7Qcg

3. 教程

3.1 莫烦Python

通俗易懂，快速入门

莫烦Pythonmorvanzhou.github.io/正在上传…重新上传取消

3.2 OpenAI Spinning Up英文版、中文版、介绍by量子位

在线学习平台，包括原理、算法、论文、代码

Welcome to Spinning Up in Deep RL!spinningup.openai.com/en/latest/

https://spinningup.readthedocs.io/zh_CN/latest/index.htmlspinningup.readthedocs.io/zh_CN/latest/index.html

OpenAI强化学习教程发布：新手极度友好，代码简约易懂299 赞同 · 7 评论文章正在上传…重新上传取消

3.3 Stable Baselines3

PyTorch实现代码

https://stable-baselines3.readthedocs.io/en/master/stable-baselines3.readthedocs.io/en/master/正在上传…重新上传取消

DLR-RM/stable-baselines3github.com/DLR-RM/stable-baselines3正在上传…重新上传取消

4. 代码

除了AndyYue1893/spinningup 和 https://github.com/DLR-RM/stable-baselines3 ，推荐以下个人实现参考：

4.1 sweetice

AndyYue1893/Deep-reinforcement-learning-with-pytorchgithub.com/AndyYue1893/Deep-reinforcement-learning-with-pytorch正在上传…重新上传取消

4.2 张楚珩

zhangchuheng123/Reinforcement-Implementationgithub.com/zhangchuheng123/Reinforcement-Implementation正在上传…重新上传取消

5. 算法

请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？2512 赞同 · 62 评论回答

三大经典算法

5.1 DQN(连续状态、离散动作)

Mnih. Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529. (Nature版本)

https://storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdfstorage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf

5.2 DDPG(连续状态、连续动作)

David. Silver, et al. "Deterministic policy gradient algorithms." ICML. 2014.

http://proceedings.mlr.press/v32/silver14.pdfproceedings.mlr.press/v32/silver14.pdf

5.3 A3C & A2C

Mnih. Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International conference on machine learning. 2016.

(PDF) Asynchronous Methods for Deep Reinforcement Learningwww.researchgate.net/publication/301847678_Asynchronous_Methods_for_Deep_Reinforcement_Learning/link/5b965ea64585153a531a8fac/download正在上传…重新上传取消

OpenAI Baselines: ACKTR & A2Copenai.com/blog/baselines-acktr-a2c/正在上传…重新上传取消

6. 环境

6.1 OpenAI Gym

http://gym.openai.com/gym.openai.com/

6.2 Google Dopamine 2.0

https://github.com/google/dopaminegithub.com/google/dopamine

6.3 Emo Todorov Mujoco

MuJoCowww.mujoco.org/

6.4 通用格子世界环境类

强化学习实践三编写通用的格子世界环境类93 赞同 · 37 评论文章

Gridworld with Dynamic Programmingcs.stanford.edu/people/karpathy/reinforcejs/index.html正在上传…重新上传取消

7. 框架/平台

fmxFranky：目前最好用的大规模强化学习算法训练库是什么？223 赞同 · 35 评论回答

7.1 OpenAI Baselines & Stable Baselines

集成度高，经典必读

https://github.com/openai/baselinesgithub.com/openai/baselines

hill-a/stable-baselinesgithub.com/hill-a/stable-baselines正在上传…重新上传取消

7.2 百度 PARL

扩展性强，可复现性好，友好

https://github.com/paddlepaddle/parlgithub.com/paddlepaddle/parl

7.3 DeepMind OpenSpiel（仅支持Debian和Ubuntu）

28种棋牌类游戏和24种算法

deepmind/open_spielgithub.com/deepmind/open_spiel正在上传…重新上传取消

7.4 清华 tianshou

fast-speed modularized framework and pythonic API

thu-ml/tianshougithub.com/thu-ml/tianshou正在上传…重新上传取消

完美复现paper结果

8. 论文

8.1 清华张楚珩 ★★★★★[2]

强化学习论文汇总437 赞同 · 10 评论文章

8.2 NeuronDance ★★★★

https://github.com/AndyYue1893/DeepRL-1/tree/master/A-Guide-Resource-For-DeepRLgithub.com/AndyYue1893/DeepRL-1/tree/master/A-Guide-Resource-For-DeepRL

8.3 paperswithcode ★★★★

Browse state-of-the-art in MLwww.paperswithcode.com/area/playing-games正在上传…重新上传取消

https://github.com/AndyYue1893/pwcgithub.com/AndyYue1893/pwc

8.4 Spinning Up推荐论文 ★★★★★

OpenAI深度强化学习入门项目：Spinning Up推荐论文31 赞同 · 1 评论文章正在上传…重新上传取消

9. PPT

9.1 Reinforcement learning_Nando de Freitas_DeepMind_2019

https://pan.baidu.com/s/1KF10W9GifZCDf9T4FY2H9Qpan.baidu.com/s/1KF10W9GifZCDf9T4FY2H9Q

9.2 Policy Optimization_Pieter Abbeel_OpenAI/UC Berkeley/Gradescope

https://pan.baidu.com/s/1zOOZjvTAL_FRVTHHapriRw&shfl=sharepsetpan.baidu.com/s/1zOOZjvTAL_FRVTHHapriRw&shfl=sharepset

10. 会议&期刊

10.1 会议：AAAI、NIPS、ICML、ICLR、IJCAI、AAMAS、IROS等

10.2 期刊：AI、JMLR、JAIR、Machine Learning、JAAMAS等

10.3 计算机和人工智能会议（期刊）排名

人工智能-中国计算机学会www.ccf.org.cn/xspj/rgzn/正在上传…重新上传取消

AMiner 验证码www.aminer.cn/ranks/conf/artificial-intelligence-and-pattern-recognition

11. 公众号

11.1 深度强化学习实验室 ★★★★★

11.2 机器之心 ★★★★★

11.3 AI科技评论 ★★★★

11.4 新智元 ★★★

12. 知乎

12.1 用户

Flood Sung（GitHub同名）、许铁-巡洋舰科技（微信公众号同名）、

田渊栋、周博磊、俞扬、张楚珩、天津包子馅儿、JQWang2048 及其互关大牛等

12.2 专栏

David Silver强化学习公开课中文讲解及实践（叶强，比较经典）

强化学习知识大讲堂（《深入浅出强化学习：原理入门》作者天津包子馅儿）

智能单元（杜克、Floodsung、wxam，聚焦通用人工智能，Flood Sung：深度学习论文阅读路线图 Deep Learning Papers Reading Roadmap很棒，Flood Sung：最前沿：深度强化学习的强者之路）

深度强化学习落地方法论（西交大牛，实操经验丰富）

深度强化学习（知乎：JQWang2048，GitHub：NeuronDance，CSDN：J. Q. Wang）

神经网络与强化学习（《Reinforcement Learning: An Introduction》读书笔记）

强化学习基础David Silver笔记（陈雄辉，南大，DiDi AI Labs）

13. 博客

13.1 草帽BOY

CSDN-专业IT技术社区-登录blog.csdn.net/u013236946/category_6965927.html

13.2 J. Q. Wang

CSDN-专业IT技术社区-登录blog.csdn.net/gsww404

13.3 Andrej Karpathy（李飞飞高徒，Tesla AI和Autopilot Vision 部门主管）

Andrej Karpathy blogkarpathy.github.io/

13.4 Lil（OpenAI小姐姐）

Lil'Loglilianweng.github.io/lil-log/

13.5 Keavnn

Keavnn'Blogstepneverstop.github.io/

13.6 大卜口(谷歌大脑研究科学家 David Ha)

大トロblog.otoro.net/正在上传…重新上传取消

14. 官网

14.1 OpenAI

OpenAIwww.openai.com/正在上传…重新上传取消

14.2 DeepMind

https://www.deepmind.com/www.deepmind.com/

14.3 Berkeley

The Berkeley Artificial Intelligence Research Blogbair.berkeley.edu/blog/?refresh=1正在上传…重新上传取消

参考

xinxing_Star

关注

3
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
最NB强化学习路线图

要理解P问题、NP问题、NPC问题、NP-hard问题，需要先弄懂几个概念：什么是多项式时间？什么是确定性算法？什么是非确定性算法？什么是规约/约化？多项式时间（Polynomial time）什么是时间复杂度？确定性算法与非确定性算法确定性算法：设A是求解问题B的一个解决算法，在算法的整个执行过程中，每一步都能得到一个确定的解，这样的算法就是确定性算法。非确定性算法：设A是求解问题B的一个解决算法，它将问题分解成两部分，分别为猜测阶段和验证阶段，其中猜测阶..
复制链接

扫一扫