Deep Reinforcement Learning Hands-on-2nd-edition 第一部分

最新推荐文章于 2024-08-09 07:53:48 发布

领海王WHL

最新推荐文章于 2024-08-09 07:53:48 发布

阅读量3.4k

点赞数 3

分类专栏：深度强化学习实践文章标签：强化学习 pytorch 机器学习神经网络

原文链接：github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On-SecondEdition

版权

深度强化学习实践专栏收录该内容

3 篇文章 8 订阅

订阅专栏

文章目录

一、写在前面的一些话

本书的第一版于2018年出版，2020年1月份第二版面世（英文版）。

作者是一个俄罗斯人Maxim Lapan，我们就叫他马克思姆吧，一个非常俄罗斯的名字。马克西姆的简介中有一句话，我认为可以解释我翻译此书的原因——“He has the ability to explain complicated things using simple words and vivid examples.”

相信每个入门强化学习的同学，看了很多的书和论文，但是对于一些基本概念（如：value function, state, reward等）的理解仍然不太清晰。主要原因有三点：一、强化学习即是一个方法，也是一个研究领域，二者一体；二、强化学习需要的背景知识比较多，比如概率论，算法基础，编程基础（python），还有不少和数学优化有关的东西，需要一个长期的积累；三、网上的课程相对较少，而且多为英文授课，资料大都是英文，对于中国学生一般要克服语言的障碍。

二、为什么要写这本书？

1. 本书的主题

本书的主题是强化学习（RL），它是机器学习（ML）的子领域。它关注于在复杂环境中学习最佳行为的一般性和挑战性问题。学习过程仅受奖励价值和从环境中获得的观察的驱动。该模型通用性很好，可以应用于许多实际情况，从打游戏到复杂的制造过程的优化。

由于强化学习的灵活性和通用性，强化学习领域正在迅速发展并吸引了众多关注。这些人中，既包括试图改进现有方法或创建新方法的研究人员，也包括有兴趣以最有效方式解决问题的工程技术人员。

2. 初衷

编写本书是为了架起有关强化学习方法与实际应用问题之间明显鸿沟的桥梁。一方面，全世界有很多研究活动，几乎每天都有新的研究论文发表，并且很大一部分的深度学习（DL）会议，例如神经信息处理系统（NeurIPS）或国际学习表示会议（ICLR），都致力于RL方法。也有几个大型研究小组致力于将RL方法应用于机器人技术，医学，多智能体系统等。

有关最新研究的信息多如牛毛，但是它过于专业和抽象，难以理解。更糟糕的是围绕着RL的实践方面的情况。因为从研究论文中以数学上繁重的形式描述的抽象方法，迈向解决实际问题的可行方案，很难一蹴而就。

这使得对该领域感兴趣的人很难清楚地了解论文和会议背后的方法和想法。有一些质量比较好的，关于各个RL方面的博客文章，都通过示例进行了说明。但是博客文章的篇幅有限，因此作者仅可以描述一种或两种方法，而无法构建完整的结构化方法，并显示不同方法之间的关系。因此，这本书是我试图解决这个问题的尝试。

3. 本书所采用的方法和软硬件环境

另一方面，本书倾向于实践。从非常琐碎的到非常复杂的各种环境，每种方法都可以实现。我试图由于PyTorch的表现力和强大功能，使得使用简洁易懂的示例可以实现。另一方面，本书的示例是针对RL爱好者的，而无需访问非常大的计算资源，例如图形处理单元（GPU）的集群并行处理或功能非常强大的工作站。我认为，这将使充满乐趣和令人兴奋的RL领域，不仅限于研究小组或大型人工智能公司，还可以供更广泛的受众使用。但是这毕竟是深度强化学习，因此强烈建议您能使用GPU。本书中大约有一半的示例在GPU上运行将会更好。

除了RL中使用的传统中型环境示例（例如Atari游戏或连续控制问题）外，本书还包含包含较大项目的几章（第10、14、15、16和18章），说明了RL方法如何实现适用于更复杂的环境和任务。这些大的示例仍不是完整的实际项目（它们自己会单独占据一本书）。

关于本书前三部分中的示例，需要注意的另一件事是，我尝试使它们自成一体，并完整显示了源代码。有时这会导致代码片段的重复（例如，大多数方法中的训练循环都非常相似），但是您可以自由的跳过您已经看懂的重复的代码。本书中的所有示例都可以在GitHub上找到：https：// github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-SecondEdition，欢迎您fork它们，进行试验，并巩固自己的理解。