David Silver RL课程笔记（一）

最新推荐文章于 2023-08-16 21:21:12 发布

yyaya-

最新推荐文章于 2023-08-16 21:21:12 发布

阅读量987

点赞数 6

分类专栏：强化学习 D.Silver课程笔记文章标签： RL 强化学习课程笔记

本文链接：https://blog.csdn.net/qq_41390332/article/details/89332458

版权

这篇博客是作者对David Silver强化学习课程的第一讲笔记，涵盖了RL的基本概念，如奖励、代理与环境、状态、目标，以及RL问题的内部结构。博主通过实例解释了奖励的正负值、延迟反馈、状态的重要性，讨论了完全可观测和部分可观测环境，并简要介绍了策略、值函数和模型在RL代理中的作用。此外，还提及了RL的分类和学习与规划、探索与利用、预测与控制等核心问题。

摘要由CSDN通过智能技术生成

写在前面

RL入门小白，前一阵子看了一些关于RL的资料和书，包括周志华的《机器学习》西瓜书等，感觉对RL还是一知半解，不少概念理解并不深刻。最后还是决定看一遍David Silver大神的课，在这里结合自己的理解记一些课程笔记，主要是摘取部分个人认为的重点内容进行记录。一些重点名词、概念等会直接使用英文或者给出英文原文方便理解（顺便学下英语）。
感谢互联网感谢B站。

课程视频连接：https://www.bilibili.com/video/av45357759
课程配套资料：http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
（可以下载各讲的课件等资料）

概述

第一讲主要就是Reinforcement Learning（RL）的入门介绍了，主要讲了一些相关的概念，举了一些RL应用的例子，以及RL目前的一些问题(problem)。

第一讲主要分为5大部分。

Admin
About RL
RL Problem
Inside an RL Agent
Problems within RL

PART 1 Admin

这部分就是讲了一些这门课的成绩计算balabala，介绍了两本书：

An Introduction to RL,Sutton Barto,1998
http://www.incompleteideas.net/book/RLbook2018.pdf
很经典的RL课本了，2018版500多页，偏理论一些。
Algorithms for RL,Szepesvari
https://sites.ualberta.ca/~szepesva/papers/RLAlgsInMDPs.pdf
偏向于公式推导，2018版不到100页。

PART 2 About RL

首先是强化学习（RL），也称增强学习，它跟监督学习、非监督学习的区别：

没有监督者(supervisor)，只有奖励(reward)信息
反馈(feedback)是延后的，并不是即时反馈
时间很重要(time really matters)，是一个动态的变化
agent做出的action可能会影响后续的数据

然后举了一些RL应用的例子，如直升机做特技飞行、玩Atari游戏等，这里不再赘述。

PART 3 The RL Problem

这一部分David Silver重点介绍了RL的几个重要概念：

Reward
Agent & Environments
State

再补充一个goal：

Goal

下面我会结合我自己的理解进行解释这些概念。

Reward

reward用 $R_t$ 来表示，它是一个标量，表示agent在第 $t$ 步做得有多好，agent的要干的活就是使得累计奖励最大。

agent’s job is to maximise cumulative reward

reward有正的也有负的，做得好，奖10分；做的不好，扣3分。

在这里就要说明的是：
最终的目标(goal)是要agent在每一步做出的action使得未来总奖励最大。(maximise total future reward)
当前的action可能对未来会有很重大的影响，而奖励又可能是延迟到来的。换言之，当前做了一个action使得当前得到的reward减少了，但是却能够给未来带来更大的reward。

也就是说，目光要放长远一些。

比如说，小时候纠结看电视还是要写作业，看电视我可以很开心，得到3分；但是写作业的话我就不开心，会得到0分；但是10点了爸妈回来了发现我没写作业就会揍我，-10分；要是写了作业就带我去玩+20分。那么选择写作业会使我当前的奖励变低但是会使最终的奖励最大，所以选择写作业是最优的。

Agent & Environments

Alt
图中的大脑就是agent，地球则表示environment。实际上agent并不能直接感知到environment，他只能通过observation $O_t$ 来获知environment的状态。接着，agent根据算法/策略做出一个action $A_t$ ，那么environment受到action $A_t$ 后，【这里进入下一个step】发生了一定的变化（不一定是可见的）observation $O_{t+1}$